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مقدمة المترجم 

يقدم هذا الكتاب دروساً تعليمية عديدةفي مجال التعلم العميق ويتميز الكتاب ببساطة لغته 
وسهولة فهمها من قبل القارئ مع شرح مميز مدعم بالأمثلة والتمارينفي نهاية كل فصل. 

عند انتهائي من قراءه هذا الکتاب. احببت ان اترجم هذا الكتاب وبعد التواصل مع المؤلف 
الاستاذ ميلاد وزان لم يبد مانعا من ترجمته الى العربية. ولله الحمد ترجمت الکتاب الى العربية 

لقد اخترت كتاب "یادگیری عمیق" للأستاذ ميلاد وزان لما رأيته من جودة هذا الکتاب» 
بترجمة ذات جودة عالیة ومع هذا يبقى عملاً بشرياً يحتمل النقص. فاذاكان لديك أي ملاحظات 
حول هذا الکتاب. فلا تتردد بمراسلتنا عبر بريدنا الالكتروني alaa. taima@qu.edu.ig‏ . 

نأمل ان يساعد هذا الکتاب کل من يريد ان يدخلني مجال التعلم العمیق ومساعدة القاری 
العربي على تعلم هذا المجال. اسأل الله التوفيقفي هذا العمل لأثراء المحتوی العربي الذي یفتقر 
أشد الافتقار إلى محتوى جيد ورصينني مجال الذكاء الاصطناعي وتعلم الالة والتعلم العميق. 
ونرجو لك الاستمتاع مع التعلم العميق ولا تنسونا من صالح الدعاء. 
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گلیة علوم الحاسوب وتكنولوجيا المعلومات 
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العراق 


۰ < eo eo 
مقدمة المؤلف‎ 
التعلم العميق هو تقنية جديدة قوية تزداد شعبيتها يومًا بعد يومفي مختلف المجالات. لذلك.‎ 
من المهم جدا أن نتعلمها. هذا الکتاب مخصص للمبتدئین الذين لیس لديهم معرفة بالتعلم‎ 
العميق لإعداد القراء لدورة فائقة السرعةفي التعلم العميق. توقعنا الوحيد من القراء هو أن لديهم‎ 
بالفعل مهارات البرمجة الأساسيةفي بايثون.‎ 


يهدف هذا الدليل المختصر إلى تزويدك كمبتدئ بفهم للموضوع. بمافي ذلك الخبرة العملية 
الملموسةفي تطویر النموذج. إذاكنت بالفعل فوق مستوى المبتدئين» فهذا الكتاب ليس لك! 


ميلاد وزان 
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خلاصة الفصل ssc ose‏ 16 
اختبار EST‏ فرط اذوه ور ررقو TON Sissies‏ 
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التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 
التعلم العميق هو مجموعة فرعية من التعلم الآلي الذي يركز على استخدام الشبكات العصبية 
لحل المشكلات المعقدة. الیوم. أصبح أكثر شيوعًا بفضل التطوراتني البرامج والأجهزة التي 
تسمح لنا بجمع ومعالجة کمیات كبيرة من البيانات. OY‏ الشبكات العصبية العميقة توفر كميات 
كبيرة من البيانات للأداء الجيد الذي نتوقعه. وبالتالی تتطلب أجهزة قوية لمعالجة هذه الكمية 
الكبيرة من البيانات. 


ماهو التعلم العميق؟ 
الذكاء الاصطناعي هوني الأساس محاكاة للبشر وسلوكياتهم العقلية بواسطة برنامج كمبيوتر يمكنه 
القيام بأشياء تتطلب عادة ذكاء بشري. بعبارات آبسط. نظام يمكنه محاكاة السلوك البشري. تشمل 
هذه السلوكيات حل المشكلات والتعلم والتخطيط التي يتم تحقيقها من خلال تحليل البيانات 
وتحديد الأنماط بداخلها من أجل تكرار تلك السلوكيات. 

الكود أو التقنية أو الخوارزمية أو أي نظام يمكنه محاكاة فئة الفهم المعرفي التي تظهرفي حد 
ذاتها أوفي إنجازاته هو الذكاء الاصطناعي. يتضمن ذلك التعلم الالي حيث يمكن للالات التعلم 
من خلال الخبرة واكتساب المهارات دون تدخل بشري. ومن ثم فان الذكاء الاصطناعي هو KJ‏ 
بناء التعلم الالي.في الواقع. يعد التعلم الالي مجموعة فرعية رئيسية من الذكاء الاصطناعي ويمكنه 
تمكين الآلات من استخدام الأساليب الإحصائية لجعل تجاربهم أكثر جودة ودقة. يسمح هذا 
لأجهزة الکمبیوتر والالات بتنفيذ الأوامر Aly‏ على بياناتهم وتعلمهم. تم تصميم هذه البرامج أو 
الخوارزميات لمعرفة المزيد بمرور الوقت والتكيف مع البيانات الجديدة. 

الفكرة الرئيسية لاختراع التعلم الالي القائم على العينة هو أن عملية التفکیرفی المشكلة أصبحت 
ممكنة من خلال الإشارة إلى أمثلة مماثلة سابقة. تسمى الأمثلة السابقة المستخدمة لبناء القدرات 
آمثلة تعلیمیة وتسمى عملية القيام بذلك التعلم.في أنظمة الكمبيوترء هناك خبرةفي شكل ELSI‏ 
والمهمة الرئيسية للتعلم الالي هي تطوير خوارزميات التعلم التي تقوم بنمذجة البيانات. من خلال 
تغذية البيانات التجريبية إلى خوارزمية التعلم الالي. نحصل على نموذج يمكنه عمل تنبؤاتفي 
الملاحظات الجديدة. 

التعلم العميق هو Call‏ مجموعة فرعية من الذكاء الاصطناعي والتعلم SW‏ حيث تكتسب 
الشبكات العصبية الاصطناعية» والخوارزميات المستوحاة من الدماغ البشري» القدرة على التعلم 
من كميات كبيرة من البيانات. تقوم خوارزمية التعلم العميق. على غرار الطريقة التي نتعلم بها من 
التجارب والأمثلة بعمل شيء واحد مرارًا LOSS‏ وتغييره TB‏ كل مرة لتحسين النتيجة. من 
خلال القيام بذلك. فإنه يساعد أجهزة الكمبيوترني العثور على خصائص من البيانات والتكيف 
مع التغييرات. يساعد التعرض المتكرر لمجموعات البيانات الآلات على فهم الاختلافات 


الفصل الاول: مقدمة في التعلم العميق 


ومناطق البیانات والوصول إلى نتيجة موثوقة.في أبسط أشكاله» يمكن اعتبار التعلم العميق وسيلة 
لأتمتة التحليلات التنبؤية .(predictive analytics)‏ 


التعلم العميق عبارة yc‏ مجموعة من الخوارزمیات GUI‏ "تتعلم من خلال الطبقات". 


بمعنی آخر, یتضمن التعلم من خلال الطبقات التى تمکن الخوارزمية من انشاء تسلسل 


1209۰092 
لفهم التعلم العمیق بشکل أفضل» تخيل طفلا صغيرًا يتعلم ماهية القطة. یتعلم الطفل الصغیر 
ما هي القطة وما هي القطة من خلال الإشارة إلى الأشیاء وقول كلمة "قطة". يقول الاباء "نعم 
إنها قطة" أو OY"‏ إنها ليست قطة". مع استمرار الطفل الدارجفي الاشارة إلى الأشياء فإنه يصبح 
أكثر Ley‏ بالخصائص التي تتمتع بها جميع القطط؛ ما الذي يفعله الطفل دون أن يعرف ذلك. 
هذه هي الطريقة التي يخلق بها تجریدا معقدا (مفهوم القطة) من خلال إنشاء تسلسل هرمي 
يكون فيه كل مستوى من التجريد مع المعرفة المكتسبة من الطبقة السابقة للتسلسل uro!‏ 

لجعل هذا التجريد المعقد بسيطًا وواضحًا. 


نشأة التعلم العميق؟ 

منذ بداية عصر الکمبیوتر كان الباحثون يضعون نظريات حول ذكاء الآلة ویحلمون بامتلاك أجهزة 
كمبيوتر ذكية يمكنها تعلم وفهم الحلول للمشكلات المعقدة.في الخمسينيات والستینیات من 
القرن الماضي. ظهرت أولى الشبكات العصبية. بمافي ذلك خوارزمية بيرسبترون لتصنیف الصور. 
ومع ذلك. cats‏ هذه الحالات المبكرة بسيطة للغاية ولا يمكن أن تكون شائعة على نطاق واسع. 
عادت الشبکات العصبية إلى الظهورفي الثمانینیات عندما طور الباحثون Bb‏ لاعادة إرسال 
المعاملات لبناء وتدریب شبکات عصبية متعددة المستویات. 

مع التطورات التي حدثت‌في العقد الأول من القرن الحادي والعشرین. ظهرت تقنیات تجعل من 
الممکن زيادة طبقات الشبکات العصبية. آدت هذه الشبکات متعددة الطبقات إلى تسمية مجال 
آبحاث الذکاء الاصطناعي "التعلم العمیق" OY‏ الخوارزمیات تعالج البيانات‌في طبقات متعددة 
للاستجابة. 

في عام 2012ء بدأت الشبكات العصبية العميقةني الأداء بشکل أفضل من خوارزميات التصنيف 
التقلیدیة بمافي ذلك خوارزميات التعلم الآلي. ترجع هذه الزيادةني الأداء إلى حد كبير إلى زيادة 
أداء معالجات الكمبيوتر (GPUS)‏ والكمية الكبيرة من البيانات المتوفرة OW‏ أدت الرقمنة 
السريعة إلى إنتاج بيانات واسعة النطاق. وهي الأكسجين المستخدمنی تدریس نماذج التعلم 
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العميق. منذ ذلك الحينءفي كل cele‏ استمر التعلم العمیقنی التحسن وأصبح أفضل نهج لحل 
المشكلاتفي العديد من المجالات المختلفة. 


aay‏ هذا الارتفاع فی الشعبية واستخدام التعلم العميق إلى aa‏ كبير إلى التقدم فى 


الأجهزة ومجموعات البیانات الموسومة الضخمة GUI‏ تسمح لنماذج التعلم العمیق 
بالتعافی ac pw‏ بمرور الوقت. 


سبب شعبية التعلم العمیق؟ 


تتجه صناعة البرمجیات الیوم نحو الذکاء الآلي» والتعلم الآلي هو الذي مهد الطریق للالات الذكية. 
ببساطةء التعلم JW‏ عبارة عن مجموعة من الخوارزمیات التي تحلل البیانات. وتتعلم منھاء ثم 
تطبق ما تعلموه لاتخاذ قرارات ذكية. الشيء الذي یمیز خوارزمیات التعلم الالي التقليدية هو 
ُنھاء بغض النظر عن مدی تعقيدهاء لا تزال شبيهة بالالة. بمعنی آخرء یحتاجون إلى خبراءفي هذا 
المجال للتعلم. بالنسبة لخبراء الذکاء الاصطناعي. هذه هي النقطة التي يعد بها التعلم العمیق. 
وذلك ON‏ الشبکات العصبية العميقة تتعلم میزات عالية المستوی من البیانات بشکل تدريجي 
(هرميًا) دون الحاجة إلى تدخل بشري. هذا يلغي الحاجة إلى خبراء المجال واستخراج المیزات 
يدويًا. اختیار السمات لمجموعة البیانات له تأثير کبیر على نجاح نموذج التعلم Be JM‏ حين أن 
استخراج السمات يدويًا سیکون عملية معقدة وتستخرق وقتا طويلاً. 

الیوم. بالاضافة إلى الشرکات والموسسات. حتی الأشخاص في الجوانب التکنولوجية یمیلون 
إلى التعلم العمیق. وعدد هذه الشرکات والافراد الذين یستخدمون التعلم العمیق یتزاید يومًا بعد 
يوم. لفهم هذا السبب. يجب على المرء أن ینظر إلى الفوائد التي يمكن اکتسابها باستخدام نهج 
التعلم العمیق. یمکن تلخیص الفوائد الرئيسية لاستخدام هذه التقنية على النحو التالي: 

* لا حاجة لهندسة المیزات: في التعلم الالي تعد هندسة المیزات مهمة آساسية وهامة. 
هذا لأنه يحسن الدقة وفی بعض OLA‏ قد تتطلب هذه العملية معرفة المجال حول 
مشكلة معينة. تتمثل إحدى أكبر مزايا استخدام نهج التعلم العمیق في قدرته على آداء 
هندسة الميزات GUE‏ في هذا النهج. تقوم الخوارزمية بمسح البيانات لتحديد 
الميزات ذات الصلة ثم دمجها لتسريع التعلم» دون إخبارها صراحة. تساعد هذه 
الإمكانية علماء البيانات على توفير قدر کبیر من الوقت ثم تحقيق نتائج أفضل. 
الاستخدام الاقصى للبيانات غير المهيكلة: تظهر الأبحاث أن نسبة كبيرة من بيانات 
المؤسسة غير المهيكلة . OY‏ معظمها في تنسيقات مختلفة مثل الصور والنصوص وما 
إلى ذلك. بالنسبة لمعظم خوارزميات التعلم الآليء يعد تحليل البيانات غير المهيكلة 
al‏ صعبًا. هذا هو المكان الذي يكون فيه التعلم العميق مفیدا. GY‏ يمكنك استخدام 
تنسيقات بيانات مختلفة لتعليم خوارزميات التعلم العميق وأيضًا اكتساب رؤى تتعلق 
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بالغرض من التدريب. على سبيل المثال . يمكنك استخدام خوارزميات التعلم العميق 
لاكتشاف العلاقات بين تحليل الصناعة ودردشة الوسائط الاجتماعية والمزيد للتنبو 
بأسعار الأسهم المستقبلية للمؤسسة. 

* تقديم نتائج عالية الجودة: یصاب البشر بالجوع أو التعب وأحيانًا يرتكبون أخطاء. في 
المقابل. ليس هذا هو الحال عندما يتعلق الأمر بالشبكات العصبية. يمكن لنموذج 
التعلم العميق المدرب بشكل صحيح أن ينجز آلاف المهام الروتينية والمتكررة في فترة 
زمنیة قصيرة نسبيًا مقارنة بما يحتاجه الانسان. بالإضافة إلى ذلك . لن تنخفض جودة 
العمل آبدا . ما لم تحتوي بيانات التدريب على بيانات أولية لا تشير إلى مشكلة تريد 
حلها. 

* التعلم الانتقالي: يحتوي التعلم العميق على العديد من النماذج المدربة مسبقاً بأوزان 
وتحيزات ثابتة » وبعضها ممتاز في التنبؤ. 

* دقة عالية في النتائج: عندما يتم تعليم التعلم العميق بكميات هائلة من البيانات» يمكن 
أن يكون Go‏ للغاية مقارنة بخوارزميات التعلم الآلي التقليدية. 

بالنظر إلى المزايا المذكورة أعلاه والاستفادة بشكل أكبر من نهج التعلم العمیق» يمكن 

القول إن التأثير الكبير للتعلم العميق على التقنيات المتقدمة المختلفة مثل إنترنت الأشياء 

في المستقبل واضح. لقد قطع التعلم العميق شوطًا طویلاً وأصبح سريعًا تقنية حيوية يتم 


ومع ذلك. تجدر الاشاره إلى أن التعلم العمیق قد لا یکون آیضا الخیار الأفضل استنادا إلى 
البیانات. على سبیل المثال, إذا كانت مجموعة GUL!‏ صغیرۂ, فقد تؤدی أحيانًا نماذج 


تعلم الآلة الخطية الأبسط AIL (JI‏ آکثر دقة. ومع «AJà‏ یجادل بعض خبراء التعلم الآلى 
بان شبکه عصبية عميقه 0213 التدریب لا یزال بامکانها العمل بشکل 242 مع کمیات 
صغيرة من البیانات. 


كيف يعمل التعلم العمیق؟ 

تکتسب نماذج التعلم العمیق القدرة على التعلم من خلال التحلیل المستمر للبیانات واکتشاف 
الهیا کل المعقدةفي البیانات. تتحقق عملية التعلم من خلال بناء نماذج حسابية تسمی الشبکات 
العصبية المستوحاة من بنية الدماغ.في صمیم هذا التعلم يوجد نهج متکرر لتدریب الالات لتقلید 
الذکاء البشري. تقوم الشبكة العصبية الاصطناعية بتنفیذ هذه الطريقة التكرارية من خلال عدة 
مستویات هرمية» حيث تکون قادرة على حل مفاهیم أكثر تعقیدا للمشكلة من خلال الانتقال إلى 
طبقات المستوی التالي. تساعد المستویات الاساسية الالات على تعلم معلومات بسيطة. كلما 
انتقلت إلى کل مستوی جدید. تجمع الأجهزة المزید من المعلومات وتدمجها مع ما تعلمتەفي 
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المستوى الأخير.في نهاية العملية. يجمع النظام جزءًا أخيرًا من المعلومات يمثل إدخالا مختلطًا. 
تمر هذه المعلومات بعدة تسلسلات هرمية وتشبه التفكير المنطقي المعقد. 

Les‏ نقسمها أكثر بمساعدة مثال. ضع‌ني اعتبارك مساعدا Gye‏ مثل Alexa‏ أو Siri‏ لترى 
كيف يستخدم التعلم العميق لتجارب المحادثة الطبيعية.في المراحل الأولى من الشبكة العصبیق 
عندما يتغذى المساعد الصوتي على البیانات. فإنه يحاول تحديد الأصوات والأشياء الأخرى.في 
المستويات العلياء يلتقط iua‏ المفردات ويضيف النتائج من المستويات السابقة.في 
المستويات التالية. يحلل الإعلانات (الأوامر) ويجمع کل نتائجها. بالنسبة لأعلى مستوى من 
الهيكل الهرمي. یتم تدريب المساعد الصوتي بدرجة كافية ليكون قادرًا على تحليل الحوار وتقديم 
المدخلات Fly‏ على تلك المدخلات. 


فى التعلم العميق, لا نحتاج إلى برمجة صريحة لكل شىء. يمكنهم التعرف تلقائيًا على 
تمثیلات البیانات Jio‏ الصور أو الفیدیو gi‏ النص, دون تقدیم قواعد يدوية. يمكن ul‏ 


تتعلم (LUI‏ شديدة المرونة AML!‏ بهم مباشرة من PL! GUL!‏ ویمکن أن تزید 
من الأداء إذا تم 1993 المزید من البیانات. 


عيوب ونحدیات التعلم العمیق 

على الرغم من تزايد آهمية التعلم العمیق وتطوراته. الا أن هناك بعض الجوانب أو التحدیات 
السلبية التي يجب معالجتها لتطویر نموذج التعلم العمیق. آکبر قیود على نماذج التعلم العمیق 
هو آنها تتعلم من خلال الملاحظة. هذا يعني آنهم یعرفون فقط ما هو موجودفي البیانات التي 
یقومون بتعلیمها وآنهم جیدون فقطفي التعیین بین المدخلات والمخرجات. بمعنی آخر لا 
یعرفون Éi‏ عن سياق البیانات التي يستخدمونها.في الواقع» تشیر كلمة "عميق"في التعلم العمیق 
إلى مرجع هندسة التکنولوجیا وعدد الطبقات المخفيةفي هیکلها آکثر من کونها تشیر إلى فهم 
عمیق لما يتم القیام به. 

تعد نماذج التعلم العمیق واحدة من أسوأ نماذج البيانات‌في عالم التعلم الالي. إنهم بحاجة إلى 
قدر هائل من البیانات لتحقیق الأداء المطلوب وخدمتنا بالقدر التي نتوقعها منهم. ومع ذلك. فان 
الحصول على هذا القدر من البیانات لیس بالأمر السهل دائمًا. بالاضافة إلى ذلك.في حین أنه 
یمکننا الحصول على کمیات کبيرة من البیانات حول موضوع ما إلا أنه غالبًا لا يتم تصنيفهاء 
لذلك لا یمکننا استخدامها لتعلیم أي نوع من خوارزمية التعلم الخاضع للاشراف. باختصاره لا 
تتعلم هذه النماذج بطريقة قابلة للتعمیم إذا كان لدى المستخدم كمية صغيرة من البیانات. یمکن 
أن يعمل التعلم العمیق بشکل آفضل عند توفر كمية كبيرة من البیانات عالية الجودة. مع زيادة 
البیانات المتاحة. یزداد آداء نظام التعلم العمیق. 
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عندما لا يتم Jal‏ بیانات ذات جودة فى النظام. یمکن أن یفشل نظام التعلم العميق 
فشلاً ذريعاً. 


تعد قضية التحيزات (biases)‏ أيضًا مشكلة رئيسية لنماذج التعلم العميق. إذا تم تدريب 
نموذج على بيانات متحيزة, فإن النموذج يعيد إنتاج تلك التحيزاتفي تنبواته. 

على الرغم من أن نماذج التعلم العميق فعالة للغاية ويمكنها صياغة حل مناسب لمشكلة معينة 
بعد التدريب مع البیانات. إلا أنها غير قادرة على القيام بذلك لحل مشكلة مماثلة وتحتاج إلى 
إعادة التدریب. لتوضيح ذلك ضعفي اعتبارك خوارزمية التعلم العميق التي تتعلم أن الحافلات 
المدرسية slo‏ ما تکون صفراء ولكن فجأة تتحول الحافلات المدرسية إلى اللون الأزرق. ومن 
ثم يجب إعادة تدريبها. على العكس من ذلك. ليس لدی الطفل البالغ من العمر خمس سنوات 
GUS‏ التعرف على السيارة كحافلة مدرسية زرقاء. بالإضافة إلى ذلك. فهي CA‏ لا تعمل بشكل 
جيدفي المواقف التي قد تكون مختلفة قلیلاً عن البيئة التي مارسوا فيها. على سبيل المثالءنی 
DeepMind‏ دربت Google‏ على هزيمة 49 لعبة Atari‏ ومع ذلك.ني كل مرة يهزم فيها 
النظام مباراة واحدق يجب dole]‏ تدريبه لهزيمة المباراة التالية. يقودنا هذا إلى تحديد آخر للتعلم 
العمیق» وهو Gal‏ حين أن النموذج قد يكون جیدا للغايةني تعيين المدخلات إلى المخرجات: 
فقد لا يكون c‏ فهم سياق البيانات التي يديرونها. 

يتعلم نمط التعلم العميق أو بشكل عام خوارزميات التعلم الالي الحالية بشكل منفصل: Giy‏ 
لمجموعة بيانات التدریب. تعمل خوارزمية التعلم SY‏ على مجموعة البيانات لانتاج نموذج 
ولا تبذل أي جهد للحفاظ على المعرفة المكتسبة واستخدامهاني تفعيل التعلمنی المستقبل. على 
الرغم من أن نموذج التعلم المنفصل هذا كان ناجحا للغاية. إلا أنه يتطلب عددًا كبيرًا من أمثلة 
التدريب وهو مناسب فقط للمهام المحددة والمحدودة جیدا. مع توفر مجموعات بیانات أكبر 
وخفض التکالیف الحسابیة أصبحت النماذج القادرة على حل المهام الا کبر متاحة. ومع ذلك 
قد یکون تعلیم نموذجفي کل مرة یحتاج فيها لتعلم مهمة جديدة Gal‏ مستحیللا. نظرًا لأن البیانات 
القديمة قد لا تکون متاحة فقد لا يتم تخزین البيانات الجديدة بسبب مشکلات الخصوصية أو 
قد لا يدعم تکرار تحدیث النظام تدریب نموذج جدید مع تکرار جمیع البیانات بشکل کاف. 
عندما تتعلم الشبکات العصبية العميقة lye‏ جديدةء فإن المعرفة الجديدة لها الأسبقية على 
المعرفة القديمة إذا لم يتم استخدام معاییر معینق مما يؤدي UU‏ إلى نسیان المعرفة الثانوية. 
یعرف هذا بالنسيان الكارثى (catastrophic forgetting)‏ (انظر الشكل 1-1). يحدث النسیان 
الكارثي عندما تكون الشيكة العصبية المدربة غير قادرة على الحفاظ على قدرتها على أداء المهام 
التي تعلمتها بالفعل عندما تتكيف مع المهام الجديدة. 
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الشکل 1-1. صورة النسیان الكارئي. تسى المعرفة التي تم تعلمها سابقًا (تختفي تدريجياً) عند تعلم 
فثات جديدة لم تتم رژیتها لفترة من الوقت. 

مشكلة آخری مع الشبکات العصبية العميقة هي آنها غالبا ما يتم تدریبها على افتراضات العالم 
المغلق. أي أنه من المفترض أن یکون توزیع البیانات التجريبية مشابهًا لتوزیع بیانات التدریب. 
ومع ذلك. عند استخدامه في العمل الواقعي. یکون هذا الافتراض غير صحیح ويؤدي إلى 
انخفاض كبير في أدائهم. عندما تعالج الشبكات العصبية العميقة البيانات التي لا تشبه التوزيع 
الذي لوحظ أثناء التدریب. ما یسمی خارج التوزيع «(Out-of-distribution)‏ فإنها غالبا ما تقدم 
تنبؤات ELE‏ وتفعل ذلك بثقة كبيرة. (انظر الشكل 2-1). في هذه الحالات ۰ يرتبط إخراج 
الشبكة ارتباطًا مباشرًا بحل المشكلة . أي احتمال کل فئة. ومع ذلك. يجب أن يكون مجموع 
تمثيلات متجه الإخراج واحدا دائمًا. هذا يعني أنه عندما يتم عرض إدخال على الشبكة ليس جزءًا 
إلى واحد. أدت هذه الظاهرة إلى المشكلة المعروفة المتمثلة في الإفراط في الثقة 
(overconfident)‏ في الشبكات العصبية بمحتوى لم يسبق لهم رؤيته من قبل. 

على الرغم من أن هذا الانخفاض في الأداء مقبول لتطبيقات مثل التوصية بالمنتجات. إلا أن 
استخدام مثل هذه الأنظمة في مجالات مثل الطب والروبوتات المنزلية يعد al‏ خطيرًا . حيث 
يمكن أن يتسببوا في حوادث خطيرة. ينبغي ‏ إن أمكن . تعميم نظام الذكاء الاصطناعي المثالي 
على عينات خارج التوزيع. لذلك . تعد القدرة على الكشف عن التوزيعات أمرًا بالغ الأهمية 
للعديد من تطبيقات العالم الحقيقي وهي ضرورية لضمان موثوقية وسلامة أنظمة التعلم الالي. 
في القيادة الذاتية. على سبيل المثال ۰ نريد أن يقوم نظام القيادة بالتحذير وتسليم السيطرة عندما 
يكتشف مشاهد أو أشياء غير عادية لم يراها من قبل ولا يمكنه اتخاذ قرار آمن. 


الفصل الاول: مقدمة في التعلم العميق 


4 ۷۷ ۶:۸ uw. 
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الشكل 2-1. عندما يتم تقديم عينة جديدة خارج التوزيع المکتسب. فإن الشبكات العصبية العميقة لفئة 
معينة تتنبأ بثقة بالتوزيع المکتسب. 


آخیرا. يتمثل أكثر نقاط الضعف المعروفةفي الشبكات العصبيةفي افتقارها إلى الشفافية. بينما 
يمكن تتبع القرارات التي تتخذها النماذج المستندة إلى القواعد من خلال عبارات Afand else‏ 
فإن هذا لن يكون ممکناني التعلم العميق. هذا النقص في الشفافية هو ما يشار إليهني التعلم العميق 
باسم "الصندوق الأسود". 

ببساطق آنت لا تعرف كيف ولماذا حصلت شبکتك العصبية على ناتج معین. على سبیل 
المثال. عندما تقوم بادخال صورة قطة إلى شبكة عصبية ويتنباً بها الجهان فمن الصعب جدا فهم 
سبب هذا التوقع. سیکون هذا السیناریو مھمّانی قرارات العمل. هل يمكنك أن تتخیل أن الرئیس 
التنفيذي لشركة كبيرة يتخذ قرارًا بشأن ملایین الدولارات دون أن تفهم سبب قيامه بذلك؟ فقط 
OY‏ "الکمبیوتر" یقول | يجب أن يفعل ذلك؟ بالمقارنة. الخوارزمیات مثل آشجار القرار قابلة 
نیریش کل کیره 

تجد خوارزمیات التعلم العمیق الأنماط والارتباطات من خلال البیانات التي يتم تغذیتها بها؛ 
وفي بعض الأحيان تتخذ قرارات مربكة حتی للمهندسین الذین قاموا بانشاتها. لن تکون هذه 
مشكلة عندما یقوم التعلم العمیق بشيء ذي آهمية ثانوية. ولکن عندما یتعلق الأمر بتقریر مصير 
المتهم في المحكمة أو العلاج الطبي لمریض. فقد یکون ذلك أمرًا بالغ الأهمية. لن الاخطاء 
يمكن أن يكون لها عواقب كثيرة. بحسب ماركوس: 

"لا تزال مشكلة الشفافية دون حل » ويريد المستخدمون فهم LAS‏ اتخاذ نظام معين لقرار محدد عند 
استخدام التعلم العميق للعمل في مجالات التشخيص الطبي والأعمال المالية." 

بشكل عام « وفقا لأندرو آنج . يعد التعلم العميق طريقة رائعة "لبناء مجتمع قائم على الذكاء 
الاصطناعي. والتغلب على أوجه القصور هذه بمساعدة التقنيات الأخرى هو الطريق الصحيح 
للوصول الى الهدف. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


مستقبل التعلم العميق؟ 

يعد التعلم العميق حاليًا آکثر تقنيات الذكاء الاصطناعي فاعلية لتطبيقات متعددة. ومع ذلك 
هناك آراء مختلفة حول قدرات التعلم العميق. بينما يعتقد بعض الباحثينفي التعلم العميق أنه 
يمكن حل جميع المشكلات عن طريق التعلم العمیق. هناك العديد من العلماء الذين يشيرون 
إلى أوجه القصورنی التعلم العميق. 

عالم النفس البحثي غاري مارکوس. أحد الروادفی مجال التعلم العميق !!!۰ يقترح طرقًا جديدة 
لتحسين حلول التعلم العميق. تتضمن هذه الأساليب تقديم المنطق أو المعرفة السابقة للتعلم 
العمیق. وتعلم المراقبة الذاتية. وشبكات الکبسولةء وما إلى ذلك. يؤكد جاري ماركوس أن تقنیات 
التعلم العميق كثيفة البيانات وهشةء وأن قدرتها على التعميم محدودة. 

يقول عالم الكمبيوتر إيان لاكان: "لا يمكن لأي من تقنيات الذكاء الاصطناعي التي نمتلكها 
إنشاء تمثيلات للعالم قريبة مما نراەفی الحيوانات والبشر من خلال البنية أو التعلم". ومن ثم. OB‏ 
تقنيات الذكاء الاصطناعي الحالية مثل التعلم العميق لا تزال غير قادرة على إنشاء ذكاء اصطناعي 
عام يتمتع بذكاء يمكن مقارنته بالحيوانات أو البشر. ومع ذلك يعتقد لاكان أن الذكاء الاصطناعي 
يمكن أن يعزز تطوير الذكاء العام على أساس التعلم العميق دون إشراف. يلبي التقدم الحديث 
الحاجة البشرية إلى البيانات ذات العلامات اليدوية التي تتعلم منها الالات. 

يقترح غاري مارکوس. مؤيد للنهج الهجين للتعلم العمیق, خطة من أربع خطوات لمستقبل 
التعلم العميق: 

1. الاتصال بعالم الذكاء الاصطناعي الكلاسيكي. لا يقترح ماركوس تحرير التعلم 
العمیق. لكنه يجادل بأنه يجب علينا استخدام مناهج أخری للذكاء الاصطناعي مثل 
المعرفة السابقة. والتفکیں والنماذج المعرفية الغنية Go‏ إلى جنب مع التعلم العميق 
من أجل التغيير التحويلي. 

2. بناء أطر معرفية ثرية وقواعد بيانات معرفية واسعة النطاق. تمتلئ أنظمة التعلم العميق 
إلى حد كبير فقط بالارتباطات بين أشياء محددة. لذلك هم بحاجة إلى الكثير من 
المعرفة. 

3. أدوات للتفكير المجرد من أجل التعميم الفعال. يجب أن نكون قادرين على الجدال 
حول هذه الأشياء. لنفترض أن لدينا معلومات عن الأشياء المادية وموقعها فی الكون. 
على سبيل المثال الكوب. يحتوي الكأس على قلم رصاص. يجب أن تكون أنظمة 
التعلم العميق قادرة بعد ذلك على اكتشاف أن أقلام الرصاص قد تسقط إذا قمنا بعمل 
ثقب في قاع الكوب. يقوم البشر دائمًا بهذا النوع من الاستنتاجات. لکن أنظمة التعلم 
العميق الحالية. أو الذكاء الاصطناعي بشکل عام c‏ لا تملك هذه القدرة. 

4. آليات تمثيل واستقراء النماذج المعرفية. 


الفصل الاول: مقدمة في التعلم العميق 


لا يزال أمام التعلم العميق طريق طويل للوصول إلى قدرات نظرائه من البشر. 


(symbolic reasoning) التفكير الرمزى‎ 


يوصف تاريخ أبحاث الذكاء الاصطناعي Chol‏ بأنه تضارب بين نهجين مختلفين للتفکیر الرمزي 
والتعلم الآلي.في العقد الأول» ساد التفكير الرمزي, لکن التعلم الآلي بدأ يتخلل التسعينيات وانتشر 
في جميع أنحاء المجال مع ثورة التعلم العميق. ومع ذلك. يبدو أن التفكير الرمزي هو مجرد 
مجموعة أخرى من الأساليب التي قد تؤدي إلى توسيع وتمكين التعلم العميق. 

يقول نيكو ستروم: "تمتلك شبكات المحولات (Transformer networks)‏ شيئًا يسمى 
الانتباه (attention)‏ . يمكنك تعبتتها مسبقاً بالمتجهات التي تمثل الحقيقةفي قاعدة المعرفة 
هذه وبعد ذلك يمكنك مطالبة الشبكة بالاهتمام بالمعرفة B‏ اعتمادًا على المدخلات 
لذلك يمكنك محاولة هيكلة معرفة العالم من خلال الجمع بين نظام التعلم العميق. 

هناك أيضًا شبكات عصبية للرسم البياني يمكنها تمثيل المعرفة حول العالم. لديك عقد 
وحواف بين هذه العقد تشير إلى العلاقات بينها. لذلك. على سبيل المثال. يمكنك إظهار 
الكياناتفي العقد ثم العلاقات بين الكيانات. يمكننا استخدام الانتباہنی جزء من الرسم البياني 
المعرفي ذي صلة بالسياق أو السؤال الحالي. 

يبدو أنه يمكن تمثيل کل المعارف‌في رسم بياني واحد. ومع ذلك. فان النقطة المهمة هي 
كيف يمكن القيام بذلك بكفاءة وبشكل مناسب؟ 

"كانت لدى هينتون هذه الفكرة منذ وقت طويل. وقد أطلق عليها اسم ناقل الفكر thought)‏ 
(vector‏ يمكن تمثيل أي فكرة لديك بواسطة ناقل. الشيء المثير للاهتمام هو أنه يمكننا إظهار 
أي شيء على رسم بياني. ولكن لكي يعمل هذا بشكل جيد باستخدام نموذج التعلم العمیق, 
يجب أن يكون لدينا شيء من ناحية أخرى يمكننا تمثيل كل شيء به. وهذا متجه» حتى نتمكن 


من إنشاء خريطة بين الاثنين. " 


ean eres‏ سای 
يستخدم التعلم العميق الآ نكأداة قوية وشائعة لحل المشاكل البشريةفي كل مجال. يستخدم التعلم 
العميق لمئات المشاكل» من رؤية الکمبیوتر إلى معالجة اللغة الطبيعية.في کثیر من الحالات. كان 
التعلم العميق أفضل من ذي قبل. يستخدم التعلم العميق على نطاق واسع‌في الجامعات لدراسة 
الذكاء وفي الصناعة لبناء أنظمة ذكية لمساعدة البشرفی مجموعة متنوعة من المهام.في هذا القسم. 
سوف نلقي نظرة على بعض تطبيقات التعلم العميق التي من المؤكد أنها ستدهشك. بالطبع 

هناك العديد من البرامج المختلفة وهذه القائمة ليست شاملة بأي حال من الأحوال. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


المساعدين الافتراضيين 
آشهر المساعدين الافتراضيين هما Siri‏ و Alexa‏ و Google Assistant‏ . يوفر كل تفاعل مع 
هؤلاء المساعدين فرصة لهم لمعرفة المزيد عن صوتك ولغتك. مما يؤدي إلى تجربة ثانوية 
للتفاعل البشري. يستخدم المساعدون الافتراضيون التعلم العميق لمعرفة المزيد حول 
موضوعاتهم. من تفضيلات الطعام الخاصة بك إلى النقاط الساخنة أو الموسيقى المفضلة لديك. 
سوف يتعلمون فهم أوامرك من خلال تقييم اللغة البشرية الطبيعية لتنفيذها. 

هناك ميزة أخرى تُمنح للمساعدين الافتراضيين وهي ترجمة كلامك إلى نص وتدوين 
الملاحظات نيابة عنك وحجز موعد. المساعدون الافتراضيون موجودونفي خدمتك حرفیّاء حيث 
يمكنهم التعامل مع كل شيء بدءًا من المهام وحتى الرد التلقائي على مكالماتك المحددة وتنسيق 
المهام بينك وبين أعضاء فريقك. 


جمع الأخبار واكتشاف أخبار الاحتيال 

توجد الآن طريقة لتصفية جميع الأخبار السيئة والقبيحة من اختيارك للأخبار. يعزز الاستخدام 
المكثف للتعلم العميقفي تجميع الأخبار الجهود المبذولة لتخصيص الأخبار وفقا للقراء. على 
الرغم من أن هذا قد لا يبدو جديداء فقد تم تطوير مستويات جديدة من التعقيد لتحديد 
شخصيات القارئ لتصفية الأخبار بناءً على المعايير الجغرافية والاجتماعية والاقتصادية Ge‏ إلى 
جنب مع التفضیلات الفردية للقارئ. من ناحية أخرى. يعد اکتشاف الاحتيال من الأصول المهمة 
في عالم اليوم حيث أصبح الإنترنت المصدر الأساسي لجميع المعلومات الصحيحة والكاذبة. 

من الصعب جد اكتشاف الأخبار المزيفة لأن الروبوتات تكررها GUE‏ على القنوات. يساعد 
التعلم العميقفي تطویر الفئات التي يمكنها اكتشاف الأخبار الزائفة أو المتحيزة وإزالتها من 
مقتطفات الأخبار الخاصة بك وتحذيرك من انتهاكات الخصوصية المحتملة. 


الذكاء العاطفي 


في حين أن أجهزة الكمبيوتر قد لا تكون قادرة على تكرار المشاعر البشرية. فإنها تكتسب فهمًا 
افضل لمواقفنا بفضل التعلم العميق. أنماط مثل التغييراتفي النغمة أو التجهم الخفيف. أو 
البحة كلها إشارات بیانات XS‏ يمكن أن تساعد الذکاء الاصطناعی واکتشاف الحالة المزاجية 
لدينا. يمكن استخدام مثل هذه البرامج لمساعدة الشركات ae‏ ربط البیانات العاطفية 
بالاعلانات. أو حتى لإعلام الأطباء بحالة المريض العاطفية. 


الفصل الاول: مقدمة في التعلم العميق 


الرعاية الصحية 

لا يمكن للأطباء أن يكونوا مع مرضاهم على مدار 24 ساعةنی الیوم. ولكن الشيء الوحيد الذي 
نحمله معنا ilo‏ هو هواتفنا. بفضل التعلم العمیق. يمكن للأدوات الطبية فحص البيانات التي 
نأخذها وبيانات الحركة لتشخيص المشاكل الصحية المحتملة. يستخدم برنامج رؤية الكمبيوتر 
sla Robbie. AI‏ البيانات لتتبع أنماط حركة المريض للتنبؤ بالسقوط بالإضافة إلى التغیراتنی 
الحالة العقلية للمستخدم. ثبت التعلم العميق أيضسًا أنه يشخص سرطان الجلد من خلال الصور. 

یستخدم التعلم العميق Cal‏ على نطاق واسعفي التجارب السريرية لإيجاد حلول للأمراض 
المستعصية. لکن شكوك الأطباء ونقص قواعد البيانات الشاملة لا يزالان يشكلان تحديات 
لاستخدام التعلم العميقفي الطب. 


کشف الاحتيال 

التعلم العميق دورًا مهمّاني منع هذا النوع من الاحتيال. يمكن الكشف عن الاحتيال بسرعة من 

خلال تقنيات التعلم المتعمق. 

| 3JI ۹ 

٭ الذكاء الاصطناعي هو نظام يمكنه محاكاة السلوك البشري. 

* تقوم خوارزمية التعلم العمیق» على غرار الطريقة التي نتعلم بها من التجارب والأمثلةق بعمل 
شيء واحد مرارًا وتكرارًا . وتغییره قليلاً في کل مرة لتحسین النتيجة. 

* تعد نماذج التعلم العمیق واحدة من Tod‏ نماذج البیانات في عالم التعلم الالی. 

* آکثر نقاط الضعف المعروفة في الشبکات العصبية هي عدم وجود الشفافية. 


اخنبار 


1. عرف الذكاء الاصطناعي والتعلم الآلي والتعلم العمیق. 
2 متی يحدث النسیان الکارثی فى الشبکات العصبیة؟ 

3. ما هي الميزة المهمة للتعلم العمیق مقارنة بالتعلم الآلي؟ 
4. صف بعض القیود والتحدیات في التعلم العمیق. 


um 


الفصل الثاني: الاساسيات 


المقدمة 


التعلم العميق هو مجموعة فرعية من أساليب التعلم الآلي. وبالتالي» سيكون من المفيد مراجعة 
مفاهيم التعلم الالي قبل التعلم العميق. يوضح هذا الفصل بالتفصيل المفاهيم اللازمة لفهم 
التعلم العميق بطريقة تقلل من المتطلبات الأساسية وتوفر معلومات كاملة حول البيانات 
والأدوات المطلوبة وأساسيات التعلم JV‏ بشكل ple‏ هذا الفصل هو الأساس لمعرفة المحتوى 
الكامل لهذا الكتاب. 

(Data) البيانات‎ 

كلمة "البيانات" مشتقة من الكلمة اللاتينية dare‏ والتي تعني "شيء معين"؛ ملاحظة أو حقيقة 
حول موضوع ما. SE‏ البياناتفي مجموعة متنوعة من الأشكال والتنسیقات. ولكن يمكن اعتبارها 
عمومًا تجربة عشوائية؛ تجربة لا يمكن تحديد نتيجتها مسبقاء لکن أداؤها لا يزال خاضعًا 
للتحليل. OU‏ ما يتم تخزين بيانات الاختبار العشوائي نی جدول. الاصطلاح الاحصائي هو إظهار 
المتغیرات. التي تسمى WE‏ سمات: كأعمدة وعناصر مفردة کصفوف. 


تشير البيانات إلى أجزاء مميزة من المعلومات GUI‏ عادة ما يتم تنسيقها وتخزينها 
لتناسب غرضا محددا. یمکن أن JU‏ البیانات بأشكال عديدة. كأرقام أو نصوص على 
الورق, gi‏ بتات cub gi‏ مخزنة فى الذاکرة الالکترونية, gl‏ کحقائق 039390 فی ذهن 
الشخص. ومع ذلك. فی علوم الکمبیوتر. تشیر البیانات dale‏ إلى المعلومات UI‏ يتم 


ارسالها gl‏ تخزینها الکترونیا وترجمتها بطريقة فعالة فى المعالجه أو المعالجة. 


البیانات المقروءة آليًا مقابل البيانات التي يمكن للبشر قراء‌تها 
تعد البیانات Shel‏ آساسیّا لجمیع المسسات وتشکل الأساس للعدید من تطویر التطبیقات. كما 
یعتمد تطبیق الخوارزمية Cal‏ على دقة البیانات Boy‏ المصدر. يعد عرض البیانات بالتنسیق 
الصحیح دون فقد القيمة الاصلية جزءًا مهما من نظام إدارة البیانات. 

يمكن تصنیف جميع البيانات على أنها يمكن قراءتھا GT‏ أو يمكن قراءتها بواسطة الإنسان أو 
كليهما. تستخدم البيانات التي يمكن قراءتها بواسطة الإنسان تنسيقات لغة طبيعية (مثل ملف 
نصي يحتوي على رمز ASCII‏ أو مستند (PDF‏ بينما تستخدم البيانات التي يمكن قراءتها Cf‏ 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


لغات کمبیوتر رسمية منظمة ليتم قراءتها بواسطة أنظمة أو برامج الكمبيوتر. يمكن للآلات والبشر 
قراءة بعض البيانات. مثل CSV‏ أو HTML‏ أو JSON‏ 

القالب المقروء GT‏ مصمم للأجهزة والآلات. يعد فهم هذا التنسيق معقدا بالنسبة للبش 
وهناك حاجة إلى أدوات متخصصة لقراءة محتوى البيانات التی يمكن IN‏ قراءتها. يمكن 
استخراج البيانات المقدمة بتنسيق يمكن قراءته RET CIT‏ من المعالجة والتحليل 
دون تدخل بشري. 

يمكن للبشر فهم البيانات التي يمكن قراءتها وتفسيرها. لا يتطلب تفسير البيانات معدات أو 
أجهزة متخصصة. هذه اللغة لها لغة طبيعية (على سبيل المثال. العربية والإنجليزية والفرنسية وما 
إلى ذلك) وتعرض بيانات غير منظمة. مثال على قالب يمكن قراءته من قبل الإنسان هو مستند 
۳ على الرغم من PDF ol‏ هو وسيط رقمي, إلا أن شاشات العرض لا تتطلب أي معدات 
أو أجهزة كمبيوتر خاصة لتفسيرها. بالإضافة إلى ذلك. عادة ما تكون المعلومات الواردةفي مستند 
PDF‏ مخصصة للبشر وليس للالات. 


البيانات في التكنولوجيا 
كانت البياناتفي طليعة العديد من المحادثات الرئيسية حول التكنولوجيا. يتم تفسیر الابتكارات 
الجديدة باستمرار على البيانات وكيفية استخدامها وتحليلها. نتيجة لذلك. تشتمل اللغة العامة 
للتكنولوجيا على عدد من التعبيرات الجديدة والقديمة: 
e‏ البيانات الضخمة (Big data)‏ كمية هائلة من البيانات المهيكلة وغیر المهيكلة التي يتم 
إنشاؤها والحصول عليها بسرعة من مصادر مختلفة وتزيد من البصيرة واتخاذ القرار. 
e‏ تحليلات البيانات الضخمة :(Big data analytics)‏ عملية جمع مجموعات البيانات 
الضخمة وتنظيمها والجمع بينها لاكتشاف الأنماط أو المعلومات المفيدة الأخرى. 
e‏ تكامل البيانات :(Data integrity)‏ صلاحية البيانات التى يمكن اختراقها بعدة طرق. بما 
في ذلك الخطاً البشري أو أخطاء الإرسال. ۱ 
e‏ البيانات الوصفية (Metadata)‏ : معلومات موجزة حول مجموعة البيانات. 
e‏ البيانات الخام :(Raw data)‏ المعلومات التي تم جمعها ولكن لم يتم تنسيقها أو تحليلها. 
e‏ البيانات المهيكلة :(Structured data)‏ أي بيانات في حقل ثابت في سجل أو ملف » 
بما في ذلك البيانات الموجودة في قواعد البيانات وجداول البيانات العلائقية. بعبارة 
ابسطء تتكون البيانات المنظمة من أنواع محددة من البيانات ذات آنماط تجعلها سهلة 
البحث. 
e‏ البيانات غير المهيكلة :(Unstructured data)‏ تختلف المعلومات الموجودة فى قاعدة 
بيانات الصفوف والأعمدة التقليدية عن البيانات غير المهيكلة. بعبارة "nmm.‏ 
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البيانات غير المهيكلة على بيانات لا يمكن dole‏ البحث عنها بسهولة» ہما فی ذلك 
تنسيقات مثل الصوت والفيديو ومنشورات الوسائط الاجتماعية. 


انواع البيانات 
تأتي البيانات بتنسيقات وأنواع مختلفة. يوفر فهم خصائص كل سمة أو جانب معلومات حول 
نوع العملية التي يمكن إجراؤها على تلك السمة. على سبيل المثال» يمكن التعبير عن درجة 
الحرارة فى بيانات الطقس بأحد التنسيقات التالية: 

1. عدد درجات مثویة )25 درجة مئوية) ء فهرنهايت أو مقياس کلفن. 

2. وضع التسميات على أساس الطقس الحار أو البارد أو المعتدل. 

3. عدد أيام السنة التي تقل عن الصفر درجة متوية )20 يومًا في السنة تحت الصفر) 
تشير كل هذه الخصائص إلى درجة حرارة المنطقة. لکن لكل منها نوع مختلف من البيانات. 
رقمى (Numeric)‏ او مستمر (Continuous)‏ 


درجة الحرارة المعبر عنها بالدرجات المتوية أو الفهرنهايت هي درجة حرارة رقمية ومستمرة, لأنه 
يمكن التعبير عنها بالأرقام واتخاذها كقيمة بين أرقام لا نهائية. الرقم الصحيح هو شكل خاص 
من البيانات الرقمية التي لا تحتوي على کسور عشريةفي القيمة أو بشکل آکثر دقة. لا يحتوي على 
NE CENE M‏ المتتالية. عادة ما تشیر إلى عدد العناصی وعدد الأيام التي تقل فيها 
درجات الحرارة عن 0 درجة مثویة وعدد الطلبات. وعدد الأطفال‌ني الأسرة. وما إلى ذلك. إذا 
تم تحديد نقطة الصفرء تصبح البيانات الرقمية نسبة أو نوع بيانات حقيقي. تشمل الأمثلة درجة 
حرارة كلفن ورصيد الحساب المصرفي والدخل. 

(Nominal) او اسمي‎ (Categorical) 5919 

يتم تعريف بیانات الفتوية أو الاسمية على أنها بيانات تستخدم لتسمية المتغيرات بدون أي كمية 
صغيرة. عادة لا يوجد ترتيب جوهري للبيانات الاسمية. على سبيل المثال. يمكن اعتبار لون 
الهاتف الذكي نوع بيانات اسمي. UM‏ لا نستطيع مقارنة لون واحد مع الألوان الأخرى. بمعنى 
osi‏ لا يمكن القول إن "الأحمر" أكبر من "الأزرق". كمثال ST‏ لون العين هو متغير اسمي له 
عدة فثات (أزرق, أآخضر بني) ولا توجد طريقة لفرز هذه الفئات من الأعلى إلى الأدنى (الفئوية) 
أو (الاسمية). ۱ 
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مجموعة البیانات Dataset‏ 


هي مجموعة من البيانات التي يتم تقديمها عادة كجدول. يمثل كل عمود متغیرا محددًا (سمة). 
يتوافق كل صف مع عضو معیننی مجموعة البيانات ويعين قيمًا لكل من المتغيرات. تحرف کل 
قيمة بالبيانات. 
التعريف 1.2 
يمكن غالبًا اعتبار مجموعة البيانات على أنها مجموعة بيانات لها نفس الخصائص. 
تتضمن c jalll‏ الأخرى لکائن البیانات: Jaw‏ أو نقطه. gi‏ متجه: أو نمط. أو «caa‏ أو 
pair‏ أو Jio‏ أو aic‏ أو مشاهده, أو کیان. 


المیزهة هى dow‏ بیانات. یمکن اعتبار المیزة patios‏ توضیحصی. قد تکون هذه المیزه 
رقمية (ارتفاع الشجره 3 gi (ro‏ قد تکون وصفية (لون العین الزرقاء). فى کثیر من 
الأحيان. إذا كانت وصفيه. فستحتاج إلى اعطائها علامة رقمية لاجراء العملیات 
الحسابية. 


طرق التعلم الآلي 
هناك نوعان رئیسیان من طرق التعلم الآلي: بإشراف وبدون اشراف. الفرق الرئيسي بين المنهجين 
هو أن التعلم تحت الاشراف يكتسب التعلم باستخدام حقيقة أو بعبارة أخری لدينا معرفة مسبقة 
بمخرجات عيناتنا. لذلك. فإن الغرض من التعلم الخاضع للإشراف هو تعليم الدال من خلال 
النظرفي عينة من البيانات والمخرجات المعنية» أفضل تقدیر للعلاقة بين المدخلات والمخرجات 
الظاهرةفي البيانات. عادة ما يتم التعلم الخاضع للإشراففي مجال التصنيف. عندما نريد تعیین 
المدخلات إلى تسميات الاخراج. أو الانحدار. عندما نريد تعيين الإدخال إلى إخراج مستمر. 
من ناحية آخری.في التعلم غير الخاضع للإشراف» لا توجد مخرجات معنونةء وبالتالي فان 
الهدف هو استنتاج البنية الطبيعية لمجموعة من نقاط البیانات واكتشاف الأنماط دون أي توجيه. 
المهام الأكثر شيوعاني التعلم غير الخاضع للاشراف هي التجميع Clustering)‏ والأبعاد.في هذه 
الحالات. نريد معرفة البنية الجوهرية لبياناتنا دون استخدام العلامات المتوفرة. 


فى نموذج التعلم الخاضع للاشراف. تتعلم الخوارزمية على مجموعه بیانات مصنفة 


ولدیها مفتاح استجابة یمکن للخوارزمية استخدامه لتقبیم دقتها فى بیانات التدریب. 
فى المقابل. يستخدم النموذج غير الخاضع للاشراف بیانات غير louro‏ وتحاول 
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التعلم بإشراف 

يعد التعلم الخاضع للإشراف أحد أكثر فروع التعلم الآلي استخدامّا. والذي يستخدم بيانات 

التدريب المصنفة لمساعدة النماذج على إجراء تنبؤات دقيقة. تعمل بيانات التدريب هنا کمشرف 

ومعلم للالات. ومن هنا جاء الاسم. يعتمد التعلم الخاضع للإشراف على توليد مخرجات من 

التجارب السابقة (البيانات المسماة).في التعلم الخاضع للاشراف يتم تعيين متغیر الإدخال (XL)‏ 

إلى متغير الإخراج (Y)‏ باستخدام دالة التعيين التي تم تعلمها بواسطة نموذج التعلم الآلي. 
y — f(x)‏ 

هنا يقوم بإنشاء نموذج دالي يربط المتغيرين بالهدف النهائي للتنبؤ بالتسمية الصحيحة لبيانات 

الإدخال. 


تحتوی خوارزمية التعلم الخاضع للإشراف دائمًا على هدف gl‏ متغير نتيجة gl)‏ متغير (&U‏ 
E‏ ی عن ال مر ا لای لد اسا 


تستخدم الخوارزمية هذه المجموعة من المتغیرات لانشاء Wla‏ تقوم بتعیین 
المدخلات إلى مخرجات عشوائيه. تتکرر عملیه التدریب هذه حتى يحقق النموذج مستوق 
عال من الدقه. 


التصنیف (Classification)‏ 
التصنيف هو عملية تعلم بأشراف. مما يعني أن خوارزمية التعلم تحاول إيجاد اتصال بين البيانات 
والعلامات tly‏ على بيانات التدريب الموسومة مسبقاً. 


فى التصنيف. يتم تحديد الفثات uuo‏ وغالبا ما يشار Law!‏ على أنها أهداف gi‏ علامات 
أو فثات. 
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يمكن تقسيم مسائل التصنیف إلى منظورين مختلفين. من وجهة نظر عدد التسمیات. والتي 
يمكن تقسيمها إلى فتتين: التصنيف احادي العلامة (Single-Label Classification)‏ 
والتصنيف متعدد العلامات «(Multi-Label Classification)‏ ومن وجهة نظر عدد الفئات. 
يمكن تقسیمها إلى فتتين: التصنیف الثنائي (Binary Classification)‏ وتصنيف متعدد الفتات 
.(Multi-Class Classification)‏ 

التصنيف الثنائي» حيث يتم تخصيص كل حالة لواحد فقط من الفتتين المحددتين مسبقاء 
هو أبسط أنواع التصنيف. يمتد التصنيف الثنائي إلى تصنيف متعدد الطبقات من خلال تحديد 
المزید من الفغات. 
اللصنیف احادى العلامة 


فی تصنيف بيانات احادي العلامة يمكن ربط كل حالة بعلامة واحدة Gui, dai‏ خوارزمية 
التصنیضنی مرحلة التدريب بعلامة واحدة فقط لكل حالة جديدة. بشكل عام يمكن تقسيم 
مشاكل التصنیف ذات العلامات المفردة إلى مجموعتين رئیسیتین: المشکلات الثنائیة ومتعددة 
الفتات. 


التصنيف الثنائى 

مشكلة التصنيف الثنائى هی أبسط حالة لمشكلة التصنيف حيث تقتصر مجموعة الفتات على 
اثنين فقط.في هذا الصدد. فإننا نميز بين فئة إيجابية وفئة سلبية. مثال بسيط على مشكلة التصنيف 
الثنائى هو عندما ترى امرأة طبيبًا لتکتشف آنها حامل. قد تكون نتيجة الاختبار إيجابية أو سلبية. 


oo ۰ Li il‏ دا ۰ كات 
التصنيف متعدد الفتات أو التصنيف المتعدد هو تصنيف العناصر إلى OLS‏ مختلفة. على عكس 
التصنيف الژثنائی؛ الذي يقتصر على فئتین فقط. فإنه لا يوجد حد لعدد الفئات ويمكنه تصنيف 
أكثر من فتتین. على سبيل المثال» يعد تصنيف LEV‏ إلى فتات مختلفة. وتصنيف الكتب 
حسب الموضوع. وتصنيف الحيوانات المختلفةفي صورة واحدة أمثلة على التصنيف متعدد 

„otal 


التصنيف متعدد العلامات 


في مشاكل التصنيف التقليدية. ترتبط كل عینة بعلامة فئة. ومع ذلك.في العديد من سيناريوهات 
العالم الحقيقي. قد يتم إقران عينة بعلامات متعددة. على سبيل المثالءفي فئة LEM‏ يرتبط جزء 
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من الأخبار حول Apple GIL!‏ لجھاز iPhone‏ الجديد JS‏ من العلامة التجارية وعلامة 
التكنولوجيا. بمعنى آخرہ ترتبط كل عينة بمجموعة من العلامات بدلاً من واحدة فقط. التعلم 
متعدد العلامات هو سياق تعلم آلي يشير إلى التعلم من البيانات متعددة العلامات التي ترتبط 
فيها کل عينة بالعديد من العلامات المحتملة. 

يعد التصنيف متعدد العلامات أحد أهم القضايافي معالجة اللغة الطبیعیة وخاصةفي تصنيف 
النص. بالاضافة إلى ذلك يتم استخدامهني العديد من قضایا العالم الحقيقي مثل استرجاع 
المعلومات وتشخيص الأمراض والمعلوماتية الحيوية. يكمن الاختلاف بين التصنيف متعدد 
العلامات والتصنيف متعدد العلاماتني عدد العلامات التي يمكن تخصيصها لعينة. 


التوقع Regression‏ 
يتمثل الاختلاف الرئيسي بین نماذج التوقع والتصنيففي استخدام خوارزميات الانحدار للتنبؤ 
بالقيم المستمرة (درجات الامتحان). بينما تتنباً خوارزميات التصنيف بقيم منفصلة (ذکر / gil‏ 
صواب / خطأ). الانحدار هو عملية إحصائية تجد علاقة ذات دلالة إحصائية بين المتغيرات 
التابعة والمستقلة. كخوارزميةء فإنه يتنباً بعدد مستمر. على سبيل المثال» يمكنك استخدام 
خوارزمية الانحدار لتحدید درجات اختبار الطلاب ely‏ على عدد الساعات التي یدرسونھانی 
الأسبوع.في هذه الحالة. تصبح الساعات المدروسة متغيرًا مستقلاً والنتيجة النهائية لاختبار 
الطالب هي متغير تابع. يمكنك رسم خط الأنسب (Fitting Line)‏ من خلال نقاط بيانات 
مختلفة لإظهار تنبؤات النموذج عند إدخال مدخلات جديدة. يمكن استخدام نفس الخط للتنبؤ 

بدرجات الامتحان بناءً على آداء طالب آخر. 

كمثال آخر. افترض أننا نريد أن يكون لدينا نظام يمكنه التنبؤ بسعر السيارة المستعملة. 
المدخلات وخصائص السيارة مثل العلامة التجارية والسنة والمسافة المقطوعة وغيرها من 
المعلومات التي نعتقد أنها تؤثر على قيمة السيارة والمخرجات هي سعر السيارة. أو فکرفی التنقل 
مع روبوت متحرك (سيارة ذاتية القيادة)؛ الإخراج هو الزاوية التي يجب أن تدور فیها عجلة 
القيادةفي كل مرة للتقدم دون الاصطدام بالعقبات والانحرافات» ويتم توفير المدخلات بواسطة 
أجهزة استشعارفي السيارة مثل كاميرات الفيديو ونظام تحدید المواقع العالمي (GPS)‏ وما إلى 
ذلك. 


Ul jo‏ وعيوب التعلم تحت الإشراف 


" التعلم تحت الإشراف هو عملیه بسیطه یمکنک فهمها. 
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2 بعد الانتهاء من عملي التدريب yi‏ تحتاج إلى الاحتفاظ ببيانات التدريب فی الذائرة. 
goaa *‏ طریقهٌ التعلم بدون اشراف. 
= نظرالوجود بیانات مصنفهٌ Ado,‏ بسوولة اختبار النموذج وتصحيحه. 


* التعلم الخاضع للاشرات محدود فى ثثير من النواحی بحیث لا «lol ado‏ بعض مهام التعلم الالى 
المعقده. 

* |ذا قدمنامدخلاب ليست من sl‏ من فئات بیانات التدريب , فقدیگون الناتج تسمیه ak‏ خاطنَه. على 
سبیل المثال « افترض أنك تقوم بتدریس مصنف الصور باستخدام بیانات القطط والگلاب. ثم إذا 
أعطيت صور ةز رافة» فقدیگون الناتج glaas‏ ثلباء وهذالیس صحیحا. 

* یستفرق التدریب الكثيرمن الوقت الحسابی. 

* يعد جمع البیانات وتصنیفهاآمرامگلفا ویستفرق وقتاطويلا. 

التعلم بدون اشراف 

يحدث التعلم بدون اشراففي التعلم الالي عندما لا يكون هناك تسمية للبيانات أو تصنیف لها. 
تتمثل المهمةفي فرز المعلومات غير المجمعة fe‏ على بعض آوجه التشابه والاختلاف دون أي 
توجیه. بمعنی آخرہ من المتوقع أن تعثر الآلة على آنماط وهیاکل مخفيةفي البیانات غير المسماة 
بمفردها. هذا هو السببفي أنه يطلق عليه بدون اشراف. لأنه لا يوجد دلیل لتعلیم السیارة ما هو 
الصواب وما هو الخطأ.في هذا النهج. لا تعرف الآلة ما الذي تبحث عنه. ولکن يمكنها فرز البیانات 
بشکل مستقل والعثور على آنماط مقنعة. 

مجموعات التعلم غير الخاضعة للإشراف معلومات غير منظمه بناء على آوجه التشابه 
والاختلاف Gia‏ لو لم یتم توفیر فثات. 
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Clustering التجميع‎ 


التجميع (الكلاسترينك) هو عملية تعيين عينات البيانات لعدد معين من المجموعات (الشكل 
1-2) بحيث يكون لنقاط البيانات التى تنتمى إلى المجموعة (العنقود) خصائص متشابهة. 
بعبارات آبسط. لا تعد المجموعات BUS — yi‏ البیانات بحيث تكون المسافة بین 
نقاط البيانات داخل المجموعات‌ي حدها الأدنی. الهدف من تحليل المجموعة (بشكل مثالي) 
هو العثور على مجموعات تكون فيها العينات داخل كل مجموعة متشابهة Giles‏ حین أن کل 
مجموعة مختلفة GLS‏ عن بعضها البعض. 


نظرا لأن ال یتم بواسطة خوارزمية. فمن المحتمل آنک ستکون aö‏ على 
اکتشاف الارتباطات غير المعروفة سابقا فى البیانات QU!‏ یمکن أن تساعدک فی مواحهة 
تحدی الأعمال من منظور جدید. 


تقلیل الأبعاد 


يشير إلى عملية تقلیل عدد السماتفي مجموعة البیانات. مع الاحتفاظ بالتغییرات على مجموعة 
البیانات الأصلية قدر الامکان. تعمل عملية تقلیل الأبعاد بشکل آساسی على تحویل البیانات من 
مساحة ميزة عالية الأبعاد إلى مساحة ميزة ذات آبعاد أصغر.في اوقت تنس من المهم ألا تضیع 
المیزات المفيدة للبیانات آثناء التحویل. 
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مقارنة التعلم بالإشراف مع التعلم بدون إشراف 

لنفترض Ul‏ نريد تعليم طفل لغة جديدة؛ على سبيل المثال الإنجليزية. إذا فعلنا ذلك وفقا لمبدأ 
التعلم الخاضع للإشراف» فإننا ببساطة نمنحه قاموسًا يحتوي على كلمات إنجليزية وترجمة إلى 
لغته الأم» على سبيل المثال العربية. سيكون من السهل نسبيًا أن يبدأ الطفل التعلم» وربما يمكنه 
التقدم بسرعة كبيرة عن طريق حفظ الترجمات. ومع ذلك. سيجد صعوبةفي قراءة وفهم النصوص 
GUL‏ الانجليزية. oY‏ تعلم فقط ترجمات الكلمات العربية-الانجليزية وليس البنية النحوية 
للجمل الإنجليزية. 

;3 لمبدأ التعلم غير الخاضع للاشراف. يبدو السيناريو مختلفاً GLS‏ على سبيل المثال» 
نمنح الطفل خمسة كتب باللغة الإنجليزية ويتعلم. طبعا هذا أكثر تعقيدا!! على سبيل المثالء 
بمساعدة "البيانات"» يمكن للطفل أن يدرك أن كلمة "آنا" متكررة نسبیّانی النص» وفی كثير من 
الحالات حتىفي بداية الجملة. ويستخلص منها استنتاجات. ۱ 

يوضح هذا المثال الفرق بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف. التعلم 
الخاضع للإشراف هوني كثير من الحالات خوارزمية أبسط. ومع ذلك فان النموذج يتعلم فقط 
السياقات المضمنة بشكل صريحفي مجموعة بيانات التدريب ويتم تقدیمها كمدخلات للنموذج. 
على سبيل المثال. يمكن للطفل الذي يتعلم اللغة الإنجليزية أن يترجم الکلمات العربية إلى 
الإنجليزية he‏ لكنه لم يتعلم قراءة وفهم النصوص الإنجليزية. 

من ناحية أخری. يعد التعلم غير الخاضع للإشراف مهمة أكثر تعقیدا لأنه يجب أن يحدد 
الهياكل ويتعلمها بشكل مستقل. نتيجة لذلك يستغرق الأمر مزیدا من الوقت والجهد للممارسة. 
المیزق مع ذلك. هي أن النموذج المدرب يحدد أيضا المجالات التي تم تغطيتها بشكل صريح. 
من المرجح أن يكون الطفل الذي تعلم اللغة الإنجليزية بمساعدة خمس روايات إنجليزية قادرا 
على قراءة النصوص الإنجليزية وترجمة الكلمات الفردية إلى العربية وفهم قواعد اللغة الإنجليزية 
أيضًا. 


لماذا التعلم بدون اشراف؟ 
التعلم الخاضع للإشراف فعال للخايةفي تحسين آداء المهام باستخدام مجموعات البيانات ذات 
العلامات المتعددة. على سبيل المثال. ضعفي اعتبارك مجموعة بيانات كبيرة جدا من صور 
الكائنات التي تم وضع علامة على كل صورة. إذا كانت مجموعة البيانات كبيرة بما يكفي وإذا 
قمنا بتدريبها جیدا بما يكفي باستخدام خوارزميات التعلم JW‏ الصحيحة وباستخدام جهاز 
كمبيوتر قوي. فيمكننا إنشاء نموذج تصنيف للصور قائم على التعلم يتم الإشراف عليه جيدا. 
نظرًا oY‏ يتم تدريب الخوارزمية عن طريق الاشراف على البیانات يمكنها قياس أدائها (عن 
طریق دالة الخطأ) من خلال مقارنة علامة الصورة المتوقعة مع علامة الصورة الفعلية الموجودة 
لدينافي مجموعة البيانات. تحاول الخوارزمية صراحة تقليل دالة الخطأ او التكلفة هذه؛ بحيث 
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يكون الخطأني الصور التي لم يتم رؤيتها من قبل (مجموعة الاختبار) أقل ما يمكن. هذا هو 
السببفي أن العلامات قوية dl‏ فهي تساعدفي توجيه الخوارزمية من خلال توفير مقياس للخطأ. 
تستخدم الخوارزمية مقياس الخطأ لتحسين أدائها بمرور الوقت. بدون هذه العلامات: لا تعرف 
الخوارزمية مدى نجاحھافی تصنيف الصور بشکل صحيح. ومع ذلك.في بعض الأحيان تكون 
تكلفة وضع العلامات يدويًا على مجموعة بيانات عالية جدا. 

بالإضافة إلى ذلك. على الرغم من قوة نماذج التعلم الخاضعة للإشراف. إلا أنها محدودةنی 
تعميم المعرفة خارج نطاق المعرفة التي يتم تدريبهم عليها. نظرًا لأن معظم بيانات العالم غير 
doles‏ فإن قدرة الذكاء الاصطناعي على توسيع وظائفه لتشمل أمثلة غير مرئية من قبل محدودة 
باستخدام التعلم الخاضع للإشراف. بمعنی آخرء يعد التعلم الخاضع للإشراف أمرًا Gil‏ لحل 
مشاكل الذكاء الاصطناعي الضیق «(Narrow AD‏ ولكنه ليس Lily‏ لحل مشكلات الذكاء 
الاصطناعي القوية. 

على النقيض من ذلك. فإن التعلم غير الخاضع للإشراف مناسب جداً للمشكلات التي تكون 
فيها الأنماط غير معروفة أو تتغير باستمرار أو ليس لدينا مجموعات بيانات ذات علامات كافية 
لها. يعمل التعلم غير الخاضع للاشراف. بدلاً من الاسترشاد بالعلامات. من خلال تعلم البنية 
الأساسية للبيانات التي يتم التدريب عليها. يقوم التعلم غير الخاضع للإشراف بهذا من خلال 
محاولة تمثيل البيانات التي يتم تدريسها عليها باستخدام مجموعة من المعاملات. من خلال 
القيام بهذا التعلم التمثيلي «(representation learning)‏ يمكن للتعلم غير الخاضع للإشراف 
تحديد أنماط مميزةفي مجموعة البيانات. 


التعلم هو تمثيل لمجموعة فرعية من التعلم JUI‏ الذى يهدف إلى الحصول على ميزات 0142 ومفيدة 
للبيانات تلقائیاء دون اشراف مهندس -oso‏ فى هذا النهجء يأخذ الجهاز البيانات agl‏ تمدخلات 
ویفتشف تلقائيا التمثيلات اللازمه لتحدید الميزةء ثم یتعلم تلقائیا المیزات الجديدةًٌ ویطبقها. . بمعنی 


AT‏ الهدف yo‏ التعلم التمثیلی هو ایجاد تعویل یقوم بتعیین البیانات الأولية إلى تمثیل یلون أثثر 
ملاءمة لمهمه تعلم alll‏ (مثل التصنيف) . Ly‏ لأنه یمن تفسير هذه GÀ, eJ‏ على أنها ples‏ میزات 


04480« فإنهاتسمى أيفاتعلم الميزات. 

في فال مجموعة بیانات الصورة (هذه المرة غير alae‏ قد يكون التعلم غير الخاضع 
للإشراف قادرًا على تحديد الصور وتجميعها tly‏ على مدى تشابهها مع بعضها البعض وكيف 
تختلف عن الآخرين. على سبيل المثال» يتم تجميع جميع الصور التي تشبه الكراسي معّ ويتم 
ہے بس بالطبع. لا يمكن للتعلم الموجه SI‏ تصنيف هذه 
المجموعات على أنها "كراسى" Í‏ و "قطط". ومع ذلك الآن بعد أن تم تج تجميع الصور المتشابهة 
Gee‏ ل اوہ ام وی VEM‏ 
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ملايين الصور يدويًاء يمكن للبشر وضع علامة یدویّا على جميع المجموعات المنفصلة وتطبيق 
هذه العلامات على جميع أعضاء كل مجموعة. 

وبالتالي» فإن التعلم غير الخاضع للإشراف يجعل المشكلات التي كانت غير قابلة للحلفي 
السابق أكثر ALB‏ للحل وأكثر مرونقنی العثور على الأنماط المخفیةء سواءفي البيانات السابقة 
المتاحة للتدريب dal‏ البيانات المستقبلية. حتى لو كان التعلم غير الخاضع للإشراف أقل كفاءة 
في حل مشكلات معينة (مشاكل محدودة للذكاء الاصطناعي) من التعلم الخاضع للإشراف. فمن 
الأفضل التعامل مع المشكلات الأكثر انفتاحًا من نوع أقوى من الذكاء الاصطناعي وتعميم هذه 
المعرفة. والأهم من ذلك. أن التعلم غير الخاضع للإشراف يمكن أن يحل العديد من المشكلات 
الشائعة التي يواجهها علماء البيانات عند بناء حلول التعلم الآلي. 


مزايا وعيوب التعلم بدون اشراف 


* يمكنه رؤية مالايستطيع العقل البشرى تخيله. 
* الحصول على البيانات غيرالمعلمةأسهل نسبيا. 


" إنهاتكلف أثثرلأنهاقد تتطلب تدخلابشريالفهم الأنماط وربظھابالمعرف الميدانية. 
howd *‏ دائمًا التحقق من فائده النتائج ء لأنه لاتوجد تسمیهٌ مخرجات أو معاييرلتأكيد فائدتها. 
" النتائجغالباماتكون Jol‏ £059 


التعليم المعزز 

يتجذر التعلم المعززفي سيكولوجية تعلم الحيوانات وهو يدور حول تعلم السلوك الأمثلفي بيئة 
للحصول على أقصى قدر من المكافأة. يتم تعلم هذا السلوك الأمثل من خلال التفاعل مع البيئة 
وملاحظات كيفية تفاعلها. يكافأ المتعلم (الوكيل) على الأعمال الصالحة ويعاقب على الإثم. 
في حالة عدم وجود مراقب. يسعى المتعلم إلى سياسة فعالة لحل مهمة صنع القرار. تحدد مثل 
هذه السياسة LAS‏ تصرف الوکیل فی أي موقف قد يواجهه من أجل تكبير (أو تقليل إجمالي 
GUI‏ المتوقعة عن طريق التجربة والخطأنی التفاعل مع بيئة ديناميكية. يعد التعلم المعزز 
خوارزمية قوية للغایة o‏ يمكن أن يتعلم الإجراءات التي تؤدي إلى النجاح النهائيفي بيئة غير 
مرئية دون مساعدة مراقب.. 
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اختيار النموذج وتقييمه 
يمكن أن يكون لاختيار نموذج للتعلم الآلي معان مختلفة. قد نكون مهتمين باختيار أفضل 
المعاملات الفائقة (Hyper Parameters)‏ لطريقة التعلم الآلي. المعاملات الفائقة هي معاملات 
طريقة التعلم التي يجب أن نحددها مسبقاء أي قبل ملاءمة النموذج.في المقابل. معاملات 
النموذج هي معاملات تم إنشاؤها كنتيجة للملاءمة. على سبيل المثال.في نموذج الشبكة العصبیق 
يعد عدد الخلايا العصبية للطبقة المخفية وعدد الطبقات المخفية معاملات فائقة يجب تحديدها 
قبل الترکیب.في حين أن أوزان النموذج هي معاملات النموذج. يمكن أن يكون العثور على 
المعاملات الفائقة المناسبة للنموذج أمرًا بالغ الأهمية لنموذج الاداء. 
في آوقات أخرى. قد نرغبفي تحديد أفضل طريقة تعلم من مجموعة من أساليب التعلم الآلي 
المؤهلة (الخوارزميات). 
اختيار النموذج (Model Selection)‏ 
اختیار نموذج تقنی لاختيار النموذج الأفضل بعد تقييم ثل نموذج بناء على المعاييرالمطلوبة. 


قبل مناقشة طرق اختيار النموذح. هناك شيء آخر نحتاج إلى مناقشته: تقييم النموذج. الغرض 
من تقییم النموذج (model evaluation)‏ هو تقدير الخطأ العام للنموذج المحدد. أي إلى أي 
مدى يعمل النموذج المحدد على بيانات غير مرئية. من الواضح أن نموذج التعلم الآلي الجيد هو 
النموذج الذي لا يؤدي فقط Fal‏ جیدا على البيانات التي تم تعلمها أثناء التدريب (وإلاء يمكن 
لنموذج التعلم الالي بسهولة حفظ بيانات التدریب). ولكن Lal‏ على البيانات غير المرئية لها 
آداء جيد. لذلك قبل نشر نموذج للانتاج» يجب أن نتأكد نسبيًا من أن أداء النموذج لن ینخفض 
في مواجهة البيانات الجديدة. 
لکن لماذا نحتاج إلى التمييز بين اختيار النموذج وتقييم النموذج؟ السبب هو أكثر من 
المناسب. إذا قمنا بتقدير خطأ التعميم للنموذج الذي اخترناه على نفس البيانات التي استخدمناها 
لتحديد النموذج المنتخب le)‏ افتراض أن النموذج قد تم اختياره Fly‏ على مجموعة التدریب). 
فسنحصل على تقدير متفائل. لماذا ا؟ الجواب بسيط!! كان نموذج التعلم الالي قادرًا على حفظ 
بيانات التدريب بسهولة. لذلك. لتقييم الأداء وتجنب مثل هذه المشاكلء نحتاج إلى بيانات 
مستقلة GLS‏ لتقدير خطأ التعميم للنموذج. 
تعتمد الإستراتيجية المقترحة لاختيار النموذج على كمية البيانات المتاحة.في حالة توفر الكثير 
من البیانات. قد نقوم بتقسيم البيانات إلى عدة آقسام. لكل منها غرض محدد. على سبيل المثالء 
لتعیین معاملات GEE‏ قد نقسم البيانات إلى ثلاث مجموعات: التدريب / التحقق من الصحة 
/ الاختبار. يتم استخدام مجموعة التدريب لتعليم نماذج مختلفة بعدد مختلف من مجموعات 
المعلمات الفائقة النموذجية. يتم تقييم هذه النماذج بعد ذلك على مجموعة التحقق ويتم اختيار 
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النموذج الذي يتمتع بأفضل أداءفي مجموعة التحقق من الصحة كنموذج منتخب. بعد ذلك يتم 
إعادة تدريب النموذج على بيانات التدريب جنبّا إلى جنب مع بيانات التحقق من الصحة 
باستخدام مجموعة من المعاملات الفائقة المحددةق ويتم تقدير الأداء العام باستخدام مجموعة 
اختبار. إذاكان خطأ التعميم هذا مشابهًا لخطأ التحقق من الصحة. فإننا نعتقد أن النموذج سيعمل 
بشكل جيد على البيانات غير المرثبة. 

ما افترضناه ضمنیّا خلال المناقشة أعلاه هو أنه تم أخذ عينات من بيانات التدریب والتحقق 
من الصحة والاختبار من توزيع واحد. إذا لم يكن الأمر کذلك. فكل التقديرات خاطتة تمامًا. 
هذا هو السببني أنه من المهم التأكد من أن توزيع البيانات لا يتأثر بتجزئة بياناتك قبل إنشاء 
النموذج. 

ولكن ماذا لو كانت البيانات القليلة هي كل ما لدينا؟ كيف تختار وتقيم النموذجنی هذه الحالة؟ 
الإجابة هي أن تقييم النموذج لا يتغير لأننا ما زلنا بحاجة إلى مجموعة تجريبية یمکننا على أساسها 
تقدير خطأ التعميم للنموذج النهائي المحدد. ومن ثم. نقسم البيانات إلى مجموعتین. مجموعة 
للتدريب ومجموعة للاختبار. ما يتغير مقارنة بالطريقة السابقة هو كيف نستخدم البرنامج 
التدريبي. إحدى هذه التقنیات هي التحقق المتبادل» والتي ستتم مناقشتها لاحقا. باختصارء ومع 
ذلك. فإن التحقق المتبادل هو أسلوب يقسم مجموعة التدريب الرئيسية إلى مجموعتين من 
التدريب والبيانات التجريبية (التحقق من الصحة). 


تجزثة البيانات 


على الرغم من أن خوارزميات التعلم الالي تعتبر أدوات مذهلة وقوية في التنبؤ والتصنيف. 
فإن السؤال الذي يطرح نفسه هو مدى دقة هذه التنبؤات وهل هناك طريقة لقياس آداء 
النموذج؟ نظرًا OY‏ هذه الخوارزميات تحتوي على علامات مميزة للعينات» يمكن الإجابة 
على هذا السؤال بتقسيم عينات التدر يب إلى عدة أقسام . 

من خلال تقسيم البیانات. نقوم أولاً بإجراء التدريب على جزء من البيانات » ثم 
نستخدم البيانات التجريبية لقياس كفاءة النموذج وإمكانية تعميمه. يشير التعميم إلى أداء 
النموذج في التعامل مع البیانات. وهو ما لم يلاحظه النموذج بعد في عملية التدريب. 
بالطبع في تصميم نماذج التعلم الآلي نقوم في أغلب الأحيان بتقسيم مجموعة بيانات 
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المشكلة إلى قسم آخر بالإضافة إلى بيانات تدریب والاختبار . وطريقة هذا التقسيم على 
النحو التالي: 

* مجموعة تدريب: عادة ما تكون أكبر مجموعات البيانات الثلاث وتستخدم للعثور 
على معاملات النموذج. تحدد مجموعة بيانات التدريب العلاقة الأساسیة بين 
البیانات وعلاماتها بأفضل طريقة ممكنة. 

= مجموعة الاختبار: قياس أداء النموذج بناءً على قدرة النموذج على التنبؤ بالبيانات 
التي لا تلعب دورًا في عملية التعلم مجموعة الاختبار هي نفس البيانات التي لم 
يتم رؤيتها في عملية التعلم. هذه المجموعة تقيس آداء النموذج النهائي. إذا كان 
النموذج يعمل بشكل جيد في مجموعة التدريب ويناسب Cas)‏ مجموعة الاختبار 
أي أنه يتنبأ بالتسمية الصحيحة لكمية كبيرة من بيانات الإدخال التي تم تجاهلها. 
وتجدر الإشارة إلى أن مجموعة الاختبار تستخدم عادة مرة واحدة فقط لتقييم أداء 
تعميم النموذج بشكل كامل بمجرد تحديد معاملات النموذج والمعاملات الفائقة 
بشكل كامل. ومع ذلك c‏ یتم استخدام مجموعة من عمليات التحقق لتقريب الأداء 
التنبئي لنموذج أثناء التدريب. 

= مجموعة التحقق من الصحة : في تقييم أنواع مختلفة من النماذج والخوارزميات 
للمشكلة . يتم استخدام مجموعة التحقق من الصحة. استخدم هذه البيانات لضبط 
المعاملات الفائقة ومنع النموذج من overfitting‏ لتحديد أفضل نموذج. 


acgoao pari j‏ التحقق yo‏ الصحة للحصول على قبم المعاملات الفاثقة المئلی 
(تحسين المعاملات الفائقة) وللمساعدة فى تحديد النموذج. ويتم استخدام 90.230 Qc‏ 
الاختبار لتقييم أداء النموذج النهائى فى العينات التى تظهر فى عملية التعلم. 


توازن التحيز والتباين (Bias-Variance Trade-Off)‏ 


في التعلم الالي. تكون العلاقة بين تعقيد النموذج وخطأ التدريب والاختبار نتيجة لخاصيتين 
متنافستين هما التحيز والتباين. يشير التحيز إلى خطأ يحدث عند محاولة استخدام نموذج بسيط 
لحل مشكلة معقدةفي العالم الحقيقي. بمعنى آخره هذا هو عدم قدرة نموذج التعلم الآلي على 
تصوير العلاقة الحقیقیةئی البيانات. على سبيل المثال. إذا أردنا استخدام الانحدار الخطي لتقدير 
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العلاقة غير الخطية. فسيكون للنموذج انحياز كبير. هذا OV‏ الخط المستقيم لا يمكن أن يكون 
ly by»‏ يكفي لتصوير علاقة غير خطية. 

في المقابلء التباين هو الاختلافني الملاءمة (fit)‏ بین مجموعات البيانات. على سبيل 
NX‏ عندما يكون النموذج مناسبّاء يكون له تباین كبير. لأن خطأ التنبؤ مختلف جدا بالنسبة 
لمجموعة التدريب والاختبار. 

بشکل ple‏ نود أن یکون لدینا أقل قدر ممكن من التحيز والتباين. ومع ذلك. فان هذه المعايير 
لها تأثيرات معاكسة ولا يمكن تقليل التحيز دون زيادة التباين. من أجل إيجاد التوازن الأمثل بين 
التحيز والتباين» نقوم بتقييم عدة نماذج للعثور على أفضل المعاملات للنموذج. على سبيل 
المثال» نقوم Chol‏ بتقسيم مجموعة البيانات إلى جزأين: مجموعة التدریب ومجموعة الاختبار. 
عند تقييم أداء نموذج مبني على مجموعة التدریب. سواءفي مجموعة التدريب أوفي مجموعة 
الاختبار نريد أن يكون خطأ التنبؤ منخفضًا قدر الإمكان. إذا كان النموذج يحتوي على خطأ تنبؤ 
منخفض في مجموعة التدریب. ولكن خطأ تنبؤ عاليفي مجموعة الاختبار, يُقال إن النموذج به 
تباین كبير ونتيجة لذلك أدت البيانات إلى الضبط الزائد (فرط التخصيص) -(Overfitting)‏ 
بشكل عام» النماذج الأكثر تعقیدا لها تباین أعلى. وذلك OY‏ النموذج المعقد يمكنه تتبع البيانات 
المحددة التي يتوافق معها بشكل أكثر دقة. ومع ذلك نظرًا لن النموذج المعقد يتتبع البيانات 
عن كثب. فمن المرجح أن يُظهر علاقة حقيقيةفي البيانات التدريبية وبالتالي أقل تحیرًا۔ لذلك. لا 
يمكن تحقيق اختيار نموذج ذي انحياز أقل نسبيًا إلا بتكلفة تباین أعلى. 

من ناحية أخرىء إذا كان النموذج يحتوي على la‏ تنبؤ کبیرنی كل من المجموعات التدريبية 
والتجريبية فيقال إن النموذج لديه تحيز كبير وبالتالي يتجاهل البيانات. باختصار إذا كان نموذج 
بيانات التدريب معقدا للغایة فسيكون خطأ التنبؤفي بيانات التدريب منخفضًا. بمعنى آخر. يؤدي 
النموذج عادة إلى التجهيز الزائد وبالتالي لا يتوافق جیدا مع البيانات التجریبیة مما يؤدي إلى 
خطأ تنبؤ أعلى للمجموعة التجريبية. الهدف هو إيجاد الحل الأمثل. وهذا هو التوازن بين التحيز 
والتباين. 

هناك عدة طرق لضبط التحيز والتباين. تحتوي معظم الخوارزميات على معاملات تنظم تعقيد 
النموذج. OU‏ ما يشار إلى هذه العملیة باسم "إعداد المعاملات الفائقة". والتي تعد جزءا أساسيًا 
من مرحلة تقييم النموذج. 
التحيز هو نموذج للتعلم الآلى للحصول على علاقة حقيقية yy‏ متغيرات البيانات. هذا 
بسبب الافتراضات الخاطئة داخل خوارزمية التعلم. لا یولی نموذج التحیز المرتفع 


اهتماما کبیرا لبیانات التدریب ویحعل النموذج بسیطا لاغاية 523679 Lola‏ إلى Und‏ کبیر 
فی بیانات التدریب والاختبار. 
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طرق التقييم 

في حين أن تدريب النموذج هو خطوة آساسية. فإن كيفية تعميم النموذج على البيانات غير 
المرئية هي جانب مهم بنفس القدر يجب مراعاته بعد تصميم أي نموذج للتعلم الآلي. يجب 
التأكد من أن النموذج فعال G>‏ وأن نتائج تنبؤاته يمكن الوثوق بها. 

يمكن تدريب خوارزمية التصنيف على مجموعة بيانات محددة مع مجموعة فريدة من 
المعاملات التي يمكن أن تخلق حدود قرار تتناسب مع البيانات. نتيجة تلك الخوارزمية المعينة 
لا تعتمد فقط على المعاملات المتوفرة لتدريب النموذج» ولكن Call‏ على نوع بيانات التدريب. 
إذاكانت بيانات التدریب تحتوي على تباین بسيط أو كانت البيانات موحدة فقد يؤدي النموذج 
إلى 0776556128 وإنتاج نتائج متحيزة على البيانات غير المرئية. لذلك. یتم استخدام طرق مثل 
التحقق المتبادل لتقليل Goverfitting‏ التحقق من الصحة. التحقق من الصحة المتبادل هو 
أسلوب يقسم مجموعة التدريب الرئيسية إلى مجموعتين من التدريب والبيانات التجريبية 
(التحقق من الصحة). الطريقة الأكثر شیوعا للتحقق المتبادل هي التحقق متعدد الأجزاء K-‏ 
fold Validation‏ والذي يقسم مجموعة البيانات الرئيسية إلى أجزاء k‏ متساوية الحجم. k‏ هو 
رقم يحدده المستخدم c‏ وعادة ما يتم تحديد 5 أو 10.في هذه الطريقة.في کل مرة یتم استخدام 
واحدة من المجموعات الفرعية k‏ كمجموعة تحقق (اختبار) ويتم تجميع المجموعة الفرعية 
k- 1‏ معًا لتشكيل مجموعة تدريبية. للحصول على الكفاءة الكلية للنموذج يتم حساب متوسط 
تقدير الخطأفي جميع التجارب. 
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معايير تقييم cla UI‏ 
لحساب معاییر التقييم لنموذج التصنیف. نحتاج إلى أربع مجموعات من الفئة الحقيقية وفتة 
التنبؤ مع العناوین c‏ الموجبة الحقيقية c‏ الموجبة الخاطتة . السلبية الحقيقية والسلبیة الخاطتق 
والتي يمكن تمثيلها في مصفوفة الارتباك (Confusion Matrix)‏ (جدول 1-2 ): 

٭ موجب حقيقي (TP)‏ على سبيل المثال . عندما كانت القيمة الفعلية للفئة انعم" » توقع 


النموذج Ca‏ "نعم" (أي توقع صحيح). 
٭ موجب خاطی (CFP)‏ على سبيل المثال . عندما كانت القيمة الفعلية BAU‏ "لا" لکن النموذج 


توقع "نعم" (أي توقع خاطی). 
۰ منفى خاطیع (FN)‏ على سبيل المثال . عندما تكون القيمة الفعلية للفئة "Yes"‏ « لکن 
النموذح توقع "لا" (أي توقع خاطی). 
٭ منفی حقيقي (TN)‏ على سبیل المثال . عندما تکون القيمة الفعلية للفثة الا" وتوقع 
النموذج "ل" sh)‏ كان التوقع (o‏ 
جدول 1-2. مصفوفة الارتباك 


المعيار الأكثر شيوعًا الذي يتم الحصول عليه من مصفوفة الارتباك هو دقتها (accuracy)‏ أو 
عكسها: خطÎ‏ التنبؤ (prediction error)‏ 
TP+TN‏ 
TP+FN+FP+TN‏ 
الدقة - 1 = goles‏ 


ح الدقة 


الدقة هى نسبة عدد التنبؤات الصحيحة إلى العدد الإجمالى لعينات الإدخال. 

عندما سپ ek‏ ودج ماء فإننا un‏ معدلات الخطأ والدقة. ولكن ما 
نركز عليه بشكل أساسي هو مدى موثوقية نموذجناء وكيف يعمل على مجموعة بيانات مختلفة 
(قابلية التعميم) ومدى مرونته. لا شك أن الدقة معيار مهم للغاية يجب أخذهفي الاعتباں لكنها لا 
تقدم Glo‏ صورة کاملة لأداء النموذج. 
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عندما نقول إن النموذج موثوق. فإننا نعني أن النموذج قد حصل على البيانات بشكل صحيح 
ووفقا لطلب التعلم. لذلك. فإن التنبؤات التي قدمتها قريبة من القيم الفعلية.في بعض الحالات. 
قد يؤدي النموذج إلى Bo‏ آفضل. لكنه قد لا يفهم البيانات بشكل صحيح وبالتالي يؤدي بشكل 
سيئ عندما تكون البيانات مختلفة. هذا يعني أن النموذج ليس موئوقا وقويًا بدرجة كافية وبالتالي 
يحد من استخدامه. 

على سبيل المثال لدینا 980 تفاحة و20 برتقالة ولدينا نموذج يصنف كل فاكهة على أنها 
تفاحة. لذلك. Bo‏ النموذج 98/ = ۰180/9 وبناءً على معیار الدقة لدينا نموذج دقيق للغاية. ومع 
ذلك. إذا استخدمنا هذا النموذج للتنبؤ بالثمار المستقبلية» فسوف نفشل. OY‏ هذا النموذج يمكن 
أن یتنا بفعة واحدة فقط. 

الحصول على صورة كاملة للنموذج. على سبيل المثال كيف يدرك البيانات وكيف يمكن 
التنبؤ بهاء يساهمفي فهمنا العميق للنموذج ويساعد على تحسينه. لذاء افترض أن لديك نموذجا 
يحقق دقة 0/90 فكيف يمكنك تحسينه؟ لتصحيح الخطأ يجب أن ندركه آولا. وبالمثلء 
لتحسين النموذج» نحتاج إلى النظرفي LAS‏ عمل النموذج على مستوى أعمق. ومع ذلك لا يتم 
تحقيق ذلك بمجرد النظر إلى معيار الدقة وبالتالي يتم النظرفي معايير أخرى. معايير مثل الدقة 
(precision)‏ والاستدعاء (recall)‏ و _*F1-Score‏ أمثلة على هذه المعايير. 

يقير الاستدعاء |لی قدرة النموذج على sell‏ بالات الايجابية من بين جمیع الایجاییات 
الحقيقية. من ناحية آخری. تقیس BU‏ جزء الایجابیات الحقيقية بين العینات التي يتوقع أن 
تکون إيجابية. قد لا تکون Bul‏ والاستدعاء وحدهما مناسبین لتقييم النموذح. لذلك يتم 
استخدام درجة ۰۳1 والتي تتضمن الدقة والاستدعاء وتشیر إلى مدی دقة المصنف. كلما زادت 
درجة 61ء كان آداء نموذجنا آفضل. طريقة حساب هذه المعاییر على النحو التالي: 

TP 
FN+TP 


_ TP 
7۔ مس‎ 


= الاستدعاء 
الدقة 


الاستدعاء * الدقة 
X —————_—_‏ 2 = درجة 71 
الاستدعاء + الدقة 
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في هذا القسم. نقدم خطوات تثبيت $Python‏ نظام التشغيل Windows‏ نظرًا لعدم وجود 
بيئة Python‏ مضمنةفي نظام التشغيل Windows‏ يجب تثبیتها بشكل مستقل. يمكن تنزيل 
حزمة التثبیت من موقع Python‏ الرسمي (www. python.org)‏ بعد فتح الموقع الرسمي. 
ابحث عن شريط التنقل الذي يحتوي على زر تنزيل download)‏ يوصي موقع الويب برابط 
افتراضیّاء حيث يمكنه تحديد نظام التشغيل الخاص بك والتوصية بأحدث إصدار من Python‏ 
. بعد الدخول إلى صفحة التنزيل الخاصة بالإصدار ذي الصلةء توجد مقدمة أساسية حول 
البيئة التي تريد تنزيلها. تم تصميم العديد من الإصدارات المختلفة بشكل أساسي لأنظمة التشغيل 
المختلفة. اعتمادًا على ما إذا كان النظام 32 بت أو 64 بت يمكنك تحديد ملفات مختلفة 
لتنزيلها.في الصفحة الجديدة التي تفتح. یمکننا العثور على إصدارات أخرى. Gly‏ ذلك أحدث 
إصدار تجريبى والإصدار المطلوب. إذا كنت تريد تثبيت الإصدار 64 بت 3.9.6( فانقر فوق 
الارتباط اا الصفحة الحالية. 

بعد تحميل «Python‏ حان وقت تثبيته. يعد تثبيت حزمة Windows‏ آمرا سهلاً للغاية. 
Gus‏ مثل تثبيت برامج Windows‏ الأخرى. نحتاج فقط إلى تحديد الخيار المناسب والنقر 
فوق الزر "التالي" لإكمال التثبيت. عندما تظهر الخيارات أثناء التثبیت. لا تتسرعفي الخطوة التالية. 
لأنه من أجل الراحةنی المستقبل عليك اختيار زر "Add Python 3.9.6 to PATH"‏ لمتغير 
(JI‏ يمكن تنفيذ أوامر Python‏ مباشرة وبسهولة على سطر أوامر Windows‏ المستقبل. 
بعد تحديد "Add Python 3.9.6 to PATH"‏ حدد التثبيت المطلوب. بالطبع. من الممكن 
Cal‏ تحديد موقع التثبیت. المثبتفي الدليل C‏ على محرك الأقراص 0 افتراضيًا. ومع ذلك من 
الأفضل معرفة ما هو دليل المستخدم حتى تتمكن من العثور على ملفات Python.exe‏ المثبتة 
عند الحاجة. اتبع التعليمات لتثبيت Python‏ بنجاح على نظامك. 


ابدأ مع بايثون 

هناك طريقتان لتشغيل بايثون: 

1) استخدام IDLE‏ الخاص ببايثون. إذا كنت ترغب في تشغيل Python‏ « يمكنك النقر فوق 
الزر "aul"‏ على سطح مكتب Windows‏ واكتب "IDLE"‏ في مربع "بحث" للدخول بسرعة 
إلى ."read-evaluate-print-loop"‏ بعد تشغيل البرنامج ۰ سترى صورة مثل الصورة 
آدناه: 
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Ln:3 4 


IDLE‏ هو بيئة تطوير متكاملة (Integrated Development Environment)‏ توفر محرر واجهة 

مستخدم رسومي ل da -Python‏ تشتغيله: سيط ومناسبًا dodo‏ تعلم لغة Python‏ يوفر 

IDLE‏ بيئة REPL‏ أي أنه يقرأ ويقيم ویحسب مدخلات المستخدم ()۰ ثم يطبع النتيجة ()ء 

وتظهر رسالة "حلقة" (في انتظار الإدخال التالي). 

2( باستخدام Windows Prompt‏ هناك طريقة أخرى لتشغيل Python‏ وهي تشغيل برامج 
3 من سطر أوامر Windows‏ للقيام بذلك c‏ اضغط على مفتاحي "13 + "Win‏ 
لفتح مربع الإشعارات . ثم أدخل "cmd"‏ المربع الذي يفتح. إذا قمت بتحديد "إضافة 
Python 3.x‏ إلى "PATH‏ عند تثبيت Python‏ . فقد تمت إضافة Python‏ المثبت 
إلى متغير بيئة Windows‏ . الآن بإدخال كلمة "python"‏ بعد ظهور ">>>" Python‏ . 
ب کا viel all e arii pba‏ 


يشير الإشعار ">>>" إلى أن التثبيت باستخدام Python‏ كان ناجحًا Python oly‏ قد Gels,‏ 


العمل. 


يجب عليك استخدام pip‏ لادارة مکتبات Pip. pip‏ هي أداة أساسية تتيح لك تنزيل الحزم 
التی تحتاجها وتحديثها وحذفها. بالاضافة إلى US‏ یمکن استخدامه للتحقق من التبعیات 
المناسة والتوافق بين الاصدارات. 
یتم شيك مکتبة باستخدام pip‏ سطر آوامر Windows‏ على سبیل المثال. افترض آننا 
نرید تثبیت مكتبة .NumPy‏ توضح الخطوات التالية كيفية تثبيت هذه المکنبة: 
* اضغط أولاً على مفتاحي "Win + R"‏ لفتح مربع الاشعارات ثم آدخل "cmd"‏ في المربع 
الذي یفتح. ثم أدخل الأمر التالي في سطر الأوامر: 


> pip install numpy 


٭ للتأكد من تثبيت المكتبة ء قم بتشغيل سطر أوامر Python‏ واكتب الأمر التالي:: 
* لن يتم عرض أي رسالة إذا تم تثبيت المكتبة بشكل صحيح. إذا لم يتم تثبيت المكتبة على 
جهاز الکمبیوتر الخاص بك ۰ فسترى هذه الرسالة عن طريق تنفيذ الأمر أعلاه: 


Traceback (most recent call last): 
File "<stdin>", line 1, in «module» 


ImportError: No module named numpy 


Jupyter Notebook 


يعد Jupyter Notebook‏ أداة قوية بشكل لا يصدق لتطوير مشاريع التعلم الآلي وتقديمها بشكل 
تفاعلي» والتي يمكن أن تتضمن نصا أو صورة أو صونًا أو فيديو بالإضافة إلى تنفيذ التعليمات 
اليرمجية. يجمع Notebook‏ بين التعليمات البرمجية والمخرجات مع الرسوم التوضيحية والنص 
السردي والمعادلات الرياضية والوسائط الأخرىفي مستند واحد. بمعنى آخرء يعد Notebook‏ 
مستندا واحداً يمكنك من خلاله تنفيذ التعليمات البرمجية وعرض المخرجات وإضافة الأوصاف 
والصيغ والرسوم التخطيطية لجعل عملك أكثر وضوحًا وقابلية للفهم وقابلية للتکرار والمشاركة. 
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لتثبيت Jupyter Notebook‏ يجب أن يكون لديك we Eee Python‏ حتى إذا كنت 
تخطط لاستخدام olUJupyter‏ البرمجة الأخرى» فإن بايثون هي الركيزة الأساسية ل 
Jupyter‏ لتثبيت Jupyter‏ ما عليك سوى كتابة الأمر التاليفي سطر أوامر Windows‏ 


> pip install jupyter 


لتشغيل Jupyter‏ افتح سطر الأوامر واكتب الأمر التالي فيه: 


بعد تنفيذ الأمر أعلاه. سيتم تشغيل متصفح الويب الافتراضي الخاص بك باستخدام Jupyter‏ 
عند تشغيل Jupyter Notebook‏ انتبه إلى دليل سطر الأوامر. حيث يصبح هذا الدليل هو 
الدليل الرئيسي الذي يظهر على الفور على Jupyter Notebook‏ وسيكون لديك حق الوصول 
إلى الملفات والادلة الفرعية الموجودة فيه فقط. قم بتشغيل أمر دفتر الملاحظات Jupyter‏ 
Notebook‏ وسترى صفحة مثل الصفحة أدناه: 


= jupyter Quit ^| Logout 
Files Running g lusti Nbextensions 
Select items to perform actions on them. Upload New» 2 
0 ~ mM Name ¥ Last Modified File size 


ومع ذلك. فإن هذه الصفحة ليست Notebook‏ بعد وهي سطح المکتب الوحيد من 
Jupyter‏ المصمم لإدارة دفاتر ملاحظات Jupyter‏ الخاصة بك واستخدامها كدليل 
لاستکشاف وتحرير وإنشاء Notebook‏ الخاصة بك. تعتمد أجهزة الكمبيوتر المحمولة وأجهزة 
سطح المکتب Jupyter;s‏ على المستعرضء Jupytere Jes‏ بإعداد خادم Python‏ محلي 
لتوصيل هذه التطبيقات بمتصفح الويب الخاص بك. 

لإنشاء Notebook‏ جدید. انتقل إلى الدليل حيث تريد إنشاء اول Notebook‏ لك وانقر 
على زر القائمة المنسدلة "جدید" أعلى يمين سطح المكتب وحدد "3 "Python‏ 


Upload | New w 


Name عل‎ — te 
Python 3 
Runt Text File k 
Folder M 
Terminal 


بعد ذلك. سیتم فتح دفتر ملاحظاتك الأولفي علامة تبويب جديدة كما هو موضح أدناه: 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


= Jupyter Untitled (autosaved) e Logout 
File Edit View Insert Cell Kernel Widgets Help Truste | Python 3 O 
+ عو‎ © Ws ^ ¥ PRU NE © P Code ~e = of] 8 


| In در‎ 


]65 عدت إلى سطح مكتب Jupyter‏ « فسترى ملف Untitled.1ipynb‏ الجديد وسترى نصا 
آخضر یخبرك أن دفتر ملاحظاتك قيد التشغيل. 
نختبر كيفية تنفيذ خلية بمثال كلاسيكي: اكتب print (Hello World!)‏ فی خلية وانقر على 
الزر اسان شريط الأدوات آعلاه أو اضغط على Ctrl + Enter‏ ستكون النتيجة على هذا 
النحو: 
In [1]: print ("Hello World!')‏ 


Hello World! 


Colab 

٠ Colaboratory‏ أو Colab‏ « عبارة عن منتج بحثي من Google‏ (خدمة سحابية) يسمح 
للمطورين بكتابة وتنفيذ كود Python‏ من خلال 

متصفحهم. يعد Google Colab‏ أداة رائعة لمهام التعلم 

العميق ويساعد على تطوير النماذج باستخدام مكتبات cola‏ 
متعددة مثل Keras‏ و Pytorch‏ و OpenCv‏ و 

77 والمزید. Colab‏ عبارة عن دفتر ملاحظات يستند إلى Jupyter‏ ولا يحتاج إلى 
تثبيت ولديه إصدار مجاني رائع يوفر وصولاً مجانيًا إلى موارد الحوسبة من Google‏ مثل GPU‏ 
JFPUS‏ 


€ Colab لماذا‎ 


يعتبر Wks Colab‏ لكل شيء بدءًا من تحسين مهارات تشفير Python‏ إلى العمل مع مكتبات 
التعلم العميق . مثل PyTorch‏ و Keras‏ و TensorFlow‏ و .OpenCV‏ يمكنك إنشاء 
وتحميل وحفظ ومشاركة دفاتر الملاحظات في Colab‏ وتثبيت Google Drive‏ الخاص بك 
واستخدام کل ما قمت بتخزينه هناك « وتحميل دفاتر الملاحظات مباشرة من GitHub‏ « 
وتحمیل ملفات Kaggle‏ ودفاتر الملاحظات الخاصة بك. والمشاركة والقیام بأي شيء آخر قد 
ترغب في القیام به. 

ميزة آخری zal;‏ في Google Colab‏ هي ميزة التعاون. إذاکنت تعمل مع مطورین متعددین 
في مشروع ماء فان استخدام 3555 Google Colab‏ يعد Gel‏ رائعًا. تماما مثل التعاون في 
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مستند Google Docs‏ ۰ يمكنك البرمجة مع مبرمج متعدد باستخدام دفتر ملاحظات -Colab‏ 
بالإضافة إلى ذلك . يمكنك أيضًا مشاركة عملك المکتمل مع مطورين آخرين. 
باختصار » يمكن سرد الأسباب المختلفة لاستخدام Colab‏ على النحو التالي: 
e‏ مكتبات مشتة مسبقا. 
٭ مخزنة فى السحابة, 
و اا 
هو استخدام GPU‏ و TPU‏ مجاني. 
ومع ذلك هناك سيناريوهان يجب عليك استخدام (3Jupyter Notebook‏ جھازك: 
1. تجنب Google Colab‏ إذاكنت تهتم بالخصوصية وترغب في الحفاظ على سرية 
اكوادك. 
2 إذاكان لديك جهاز قوي بشكل لا يصدق مع امكانية GPU‏ و .TPU‏ 


اعداد Google Colab‏ 
تعد عملية إعداد Colab‏ سهلة نسبیّا ويمكن إكمالها بالخطوات التالية على أي نوع من الأجهزة: 
1. قم بزيارة صفحة :Google Colab‏ 
http://colab.research.google.com‏ 
سينقلك تحميل الموقع أعلاه إلى صفحة الترحيب الخاصة ب Google Colaboratory‏ 
2 انقر فوق الزر تسجيل الدخول في الجزء العلوي الأيمن: 
8 .۰۰۰ 6س سس 


É X + Code + Tex 6 Copy to Drive mete جم‎ a 
Table of contents 


OO What is Colaboratory? 


"Colab" for short, allows you to write and execute Python in your browser, with 


Whether youre a student, a data scientist or an Al researcher, Colab can make your work easier. Watch Introduction to 
Colab to learn more, or just get started below! 
» Getting started 


The document you are reading is not a static web page, but an interactive environment called a Colab notebook that lets 
you write and execute code 


For example, here is a code cell with a short Python script that computes a value, stores it in a variable, and prints the 
sult: 


3. قم بتسجيل الدخول باستخدام حساب Gmail‏ الخاص بك. إذا لم يكن لديك حساب 
Gmail‏ ‘ فقم بإنشاء حساب: 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


Google 
Sign in 


Use your Google Account 


5 من خلال النقر فوق ملف ==< دفتر ملاحظات جدید. يمكنك بسهولة إنشاء دفتر 
ملاحظات جديد من Colab‏ فی هذه الصفحة. 
UntitledO.ipynb inn «me 4 ©‏ & 0 
File Edit View Insert Rur‏ 


+ Code + Text Connect > $^ Editing ^ 


<> © 


phi‏ التعلم العميق 

يعد تطوير شبكة عصبية عميقة وإعدادها لحل المشكلات مهمة صعبة للغاية. لأن العديد من 
القطع تحتاج إلى تجميعها Bs‏ لإنشاء تدفق منظم وتنظيمه من أجل تحقيق الأهداف التي نريد 
تحقيقها من خلال التعلم العميق. لذلك. يحتاج الباحثون أو علماء البيانات إلى إطار عمل لتمكين 
حلول أسهل وأسرع وأفضل جودة للتجارب والأبحاث. تساعد هذه الأطر الباحثين والمطورين 
على التركيز على المهام الأكثر al‏ بدلاً من استثمار المزيد من الوقتفي العمليات الأساسية. 
توفر أطر ومنصات التعلم العميق فكرة مجردة إلى حد ما عن المهام المعقدة مع وظائف بسيطة 
يمكن استخدامها من قبل الباحثين والمطورين كأداة لحل المشكلات الأكبر. 

(PyTorch) تورج‎ sU 


' وهي مثالية‎ Torch هي بيئة تعلم آلي تعتمد على‎ PyTorch 
© PyTorch بواسطة مختبر‎ PyTorch لتصميم الشبكة العصبية. تم تطوير‎ 
وتم إصداره في ینایر‎ Facebook أبحاث الذكاء الاصطناعي في‎ 
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6 كمكتبة مجانية ومفتوحة المصدر ويستخدم بشكل أساسي في رؤية الكمبيوتر والتعلم 
العميق وتطبيقات معالجة اللغة الطبيعية. ويدعم تطوير البرامج المستندة إلى السحابة. يعد تنفيذ 
شبكة عصبية في PyTorch‏ أسهل وأكثر سهولة من البيئات SSW‏ مع دعم وحدة المعالجة 
المركزية ووحدة معالجة الرسومات. يمكن تدريب الشبكات العصبية العميقة المعقدة 
بمجموعات بيانات كبيرة. 


المزايا والعيوب 


* سهوله التعلم. 


* مرن وسريع. 


* سهولة تصحيح الاخطاء. 


" عدم وجودأدوات دعم الرسم و التوضيح مثل tensorboar d‏ 


تنسرفلو (TensorFlow)‏ 
TensorFlow‏ هي واحدة من أشهر بيتات التعلم 
الآلي والتعلم العميق التي يستخدمها المطورون 
والباحثون. تم إطلاق TensorFlow‏ لأول مرة 
بواسطة فريق Google Brain‏ في عام 2007 

ويمكن تشغيله على وحدات المعالجة المركزية Tensor‏ 
ومسرعات الذكاء الاصطناعي المتخصصة. بما في ذلك وحدات معالجة الرسومات (GPU)‏ و 
.(TPU)‏ يتوفر TensorFlow‏ على أنظمة Linux‏ و macOS‏ و 64 Windows‏ بت 
ومنصات الحوسبة المحمولةء بما في ذلك Android‏ و iOS‏ يمكن نشر النماذج المدربة على 
TensorFlow‏ على أجهزة سطح المكتب والمتصفحات وحتى وحدات التحكم الدقيقة. هذا 
الدعم الشامل يجعل TensorFlow‏ فریدا وجاهرًا للانطلاق. سواء كنت تعمل على رؤية 
الكمبيوتر أو معالجة اللغة الطبيعية أو نماذج السلاسل الزمنية « TensorFlow ob‏ عبارة عن 
منصة تعلم آلي قوية وعالية الاداء. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


المزايا والعيوب 


* دعم ممتاز للرسوم البيانية aylu‏ لکل من الحوسبه والتوضيح. 


TensorFlow ext yoy "‏ على gal‏ سطح المثتب والمتصفحات وحتى وحدات gla‏ 


الدقيقة. 


" منحنى التعلم منحدر بسبب واجهات برمجِهً التطبيقات ۸۲1 منخفضة المستوى (صعوبة التعلم) . 


n‏ قديكون فهم بعض رسائل TensorFlow blas‏ أمرا صعباللفاية. 
كيراس (Keras)‏ 


Keras‏ هی واجهة برمجة تمكن علماء 
یات من توصود a Keras = iam‏ 
التعلم العميق TensorFlow‏ 
واستخدامها. (نها واجهة برمجة CAPT) cities‏ وساحة عمل تعلم عمیق مفتوحة المصدر 
مكتوبة بلغة Python‏ تعمل على TensorFlow‏ وتم دمجها الآن في النظام الأساسي. دعم 
Keras‏ سابقا العديد من (backend)‏ ولكن مع GUL‏ الإصدار 2.4.0 يونيو 2020 ۰ فهو 
مرتبط حصريًا ب .TensorFlow‏ تم تصمیم Keras‏ « باعتبارها API‏ عالية المستوی. لاجراء 
تجارب سريعة وسهلة تتطلب ترميرًا أقل من خيارات التعلم العميق الأخرى. الهدف هو تسريع 
تنفيذ نماذج التعلم الالي ولا سيما الشبكات العصبية العميقة. من خلال عملية تطوير "سرعة 
التكرار العالية". يمكن تشغيل طرازات Keras‏ على وحدة المعالجة المركزية أو وحدة معالجة 
الرسومات ونشرها على منصات متعددة بما في ذلك متصفحات الويب وأجهزة Android‏ و 
iOS‏ المحمولة. تعد Us Keras‏ من TensorFlow‏ و Py Torch‏ ولكنها تتميز ببنية بسيطة 
وهي أكثر قابلية للقراءة وموجزة وسهلة الاستخدام وقابلة للتطوير. يعد Keras‏ أكثر ملاءمة 
لمجموعات البيانات الصغيرة ويوصى به للمبتدثين نظرًا لتصميمه البسيط والمفهوم. 
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المزايا والعيوب 


Jic API *‏ المستوى. 
* سهله‌التعلم. 
5 سهولةإنتاج النماذج. 


" سهل الاستخدام. 


* لايحتاج إلى خلفیه‌قویهفی التعلم العميق. 


* مناسب لمجموعة البيانات الصغيرة. 


" فى بعض الاحیان, بطیءمع 6۲0 . 


خلاصة الفصل 


٭ تشير البیانات إلى أجزاء مميزة من المعلومات التي عادة ما يتم تنسيقها وتخزينها لتناسب 
غرضًا محددا. 

٭ يتم تمثیل کل نقطة بيانات OE‏ بواسطة متجه سمةء ویمثل کل إدخال في المتجه سمة. 

٭ يمكن تصنيف البيانات على أنها مقروءة OT‏ أو قابلة للقراءة البشرية أو كليهما. 

* يعد التعلم الخاضع للإشراف أحد أكثر فروع التعلم JW‏ استخدامًا ء والذي يستخدم بيانات 
التدريب المصنفة لمساعدة النماذج على إجراء تنبؤات دقيقة. 

٭ في التصنیف. يتم تعريف الفئات مسبقًا وغالبًا ما يشار إليها على أنها أهداف أو علامات أو 
فئات. 

= الانحدار هو عملية إحصائية تجد BAe‏ ذات دلالة إحصائية بين المتغيرات التابعة 
والمستقلة. وکخوارزمیة تتنبأ برقم مستمر. 

٭ يحدث التعلم JW‏ غير الخاضع للإشراف في حالة عدم وجود تصنیف للبيانات. 
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اختبار 


قم بتسمية الطرق المختلفة للتعلم الالي ووصف الاختلافات والمزايا والعيوب لكل منها؟ 

ما المقصود بالتعميم في التعلم الآلي؟ 

ما هو الفرق بين المعاملات والمعاملات الفائقة؟ 

لماذا يتم تقسیم البيانات لتعليم خوارزمية التعلم الآلي؟ 

هل يمكن أن يكون النموذج الذي حقق دقة ۸98 في مجموعة التدریب ولكن بدقة 1.79 

في مجموعة الاختبار نموذجًا مقبولاً أم لا؟ إعطي سبباً. 

6 لنفترض أن نموذجا في مجموعة بيانات ذات فئتين مختلفتين وغیر متوازنتین للغاية يحقق 
دقة تصل إلى 99 ۰ فهل يمكننا القول أن هذا النموذج يتمتع بكفاءة عالية جد hy‏ على 
معيار الدقة فقط؟ اشرح السبب. 
لماذا يتم استخدام مجموعة بيانات التحقق من الصحة؟ 
ما الذي يسبب الضبط الزائد fOverfitting‏ 

9 إلى ماذا يشير التباين العالي والتحيز العالي؟ 


RON‏ صن 


+ 
Ium 
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المقدمة 


في هذا الفصل. نقدم بنية الشبكات العصبیة ونصف بالتفصیل كيف تعمل الخلايا العصبية. ثم 
نصف عملية التدريبفي الشبكات العصبية والمفاهيم الموجودةفي هذا المجال. هذه المفاهيم 
بمثابة أساس للفصول القادمة. 

الشبكات العصبية الاصطناعية (Artificial Neural Networks)‏ 
الشبكات العصبية الاصطناعية. أو باختصار ANN‏ هي مجموعة من نماذج التعلم الآلي 
المستوحاة بشكل عام من دراسات الجهاز العصبي المركزي للثدییات. بمعنى آخر إنها نموذج 
حسابي يحاكي LAS‏ عمل الخلايا العصبیةنی دماغ الإنسان. تتكون كل شبكة عصبية اصطناعية 
من عدة "عصبونات" متصلة منظمةفي "طبقات". ترسل الخلايا العصبیةنی كل طبقة رسائل إلى 
الخلايا العصبيةني الطبقة التالية. 


GUI العصبية الاصطناعية هی محاولة لمحاکاة شبکه من الخلايا العصبيه‎ a Anl 


تشکل دماغ الانسان Gia‏ تتمکن ojmal‏ الکمبیوتر من التعلم واتخاذ القرارات بطرق 
تحتوي الشبكة العصبية الاصطناعية على iib‏ إدخال وطبقة إخراج وطبقة مخفية واحدة أو 
أكثر مترابطة. تتکون الطبقة الأولى من الخلایا العصبية المدخلة. ترسل هذه الخلایا العصبية 
البیانات إلى طبقات آعمق. تتلقی کل طبقة بعد طبقة الادخال بدلاً من الادخال الأوليء اخراج 
الطبقة السابقة کمدخل. أخيرًاء ينتج آخر طبقة إخراج للنموذج. 

تحدد آمثلة التدریب بشکل مباشر المخرجات التی يجب إنشاؤها لكل إدخال ×. تحاول طبقة 
المخرجات حساب قيمة قريبة من ناتج معین لعینات تدریب ممائلة. ومع ذلك فإن سلوك 
الطبقات الداخلية لا يتأثر بشکل مباشر بعینات التدریب ۰ وخوارزمية التدریب هي التي تحدد 
كيفية عمل هذه الطبقات من خلال اتخاذ قراراتهم الخاصة لإنتاج المخرجات odi‏ ھت 
لذلك. فان وظيفة الطبقات الداخلية. بناء على المخرجات المرغوبة التي تم الحصول عليها من 
عينات التدریب. غير محددة بوضوح وتعمل كصندوق آسود. ومن ثم تسمى هذه الطبقات 
بالطیقات المخفية. 


لقد تعلم علماء الاعصاب الإدراكيون الكثير عن الدماغ البشري منذ أن طور علماء الكمبيوتر 
لأول مرة الشبكة العصبية الاصطناعية الأصلية. كان أحد الأشياء التى تعلموها أن أجزاء مختلفة 
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من الدماغ مسؤولة عن معالجة جوانب مختلفة من المعلومات. وهذه الأجزاء مرتبة بشكل هرمي. 
dS s‏ تدخل المدخلات إلى ¿Ll‏ وكل مستوى من الخلايا العصبية يوفر البصيرة. ثم يتم 
نقل المعلومات إلى المستوى الأعلى التالى. هذه هى الآلية التى تحاول ANN‏ تكرارها. 


لكي تتمكن الشبكات العصبية الاصطناعية من التعلم. يجب أن يكون لديها قدر هائل من 
البیانات. وهو ما یسمی مجموعة التدريب. عندما تريد تعلیم الشبكات العصبية الاصطناعية كيفية 
التمييز بين القط والکلب. یوفر البرنامج التعليمي GW‏ الصور التي تم وضع علامات عليها 
للکلاب لكي تبدأ الشبكةفي التعلم. عند تدريبه على قد رکبیر من البیانات. يحاول تصنيف البيانات 
المستقبلية إلى فثات مختلفة Fly‏ على ما يعتقد أنه يراه (أو يسمعه. اعتمادًا على مجموعة 
البيانات). خلال فترة التدریب. تتم مقارنة إخراج الجهاز مع الأوصاف البشرية (العلامات) لما 
يجب مشاهدته. إذا كانت متطابقة» فان النموذج يعمل بشكل جيد. إذا كان غير صحيح. فإنه 
يستخدم الانتشار الخلفي backpropagation‏ لضبط التعلم. 
بيرسيبترون (perceptron)‏ 
الخلايا العصبية هي عنصر أساسي في أي شبكة عصبية اصطناعية. يُطلق على أبسط نوع من 
نمذجة الخلايا العصبية اسم بيرسيبترون Perceptron‏ ۰ والذي يمكن أن يحتوي على عدد كبير 
من المدخلات بمخرج واحد. یوضح الشكل 1-3 مخططا لبيرسيبترون. يستخدم Perceptron‏ 
التعلم الخاضع للاشراف لتصنیف أو توقع المخرجات. یصنف المستشعر أحادي الطبقة البیانات 
عن طريق رسم حدود القرار (decision boundary)‏ باستخدام خط محدد. 


Bias التحيز‎ 


شكل 1-3. بيرسيبترون 


دعونا نلقي نظرة على كيفية عمل بيرسبترون. يعمل Perceptron‏ عن طريق التقاط بعض 
المدخلات العددية Cm‏ إلى جنب مع ما يعرف باسم الأوزان (weights)‏ والتحيزات او 
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الانحيازات (bias)‏ ثم يقوم بضرب هذه المدخلات بالأوزان المقابلة (المعروفة باسم مجموع 
الأوزان). ثم يتم إضافة هذا الناتج مع التحيز. تأخذ دالة التنشيط (Activation Function)‏ 


Perceptron‏ ء لتحسين طريقة عمله. يتكون بیرسیبترون (الشكل 1-3) من أربعة أجزاء رئيسية: 


قيم الإدخال والأوزان والتحيز (الانحیاز) وإجمالي الوزن ودالة التنشيط. افترض أن لدينا خلية 
عصيية وثلاثة مدخلاات X3 X2 X4‏ مضروبة في الأوزان W3 ‘Wo Wy‏ على التوالي: 


m 
2095 
ل المدخلات‎ 


الفكرة بسيطة . بالنظر إلى القيمة العددية للمدخلات والاأوزان فهناك دالة داخل الخلية العصبية 
تنتج مخرجات. الآن السؤال ما هي هذه الدالة؟ هذه الدالة تعمل كالاتي: 


المخرجات 


y — 231۸۷ T 2۸۷2 T X3W3 


هذه الدالة تسمی مجموع الاوزان . لأنها مجموع الأوزان والمدخلات. هذا جید حتى OW‏ لکن 
إذا أردنا أن تکون المخرجات في نطاق معین. على سبيل المثال من 0 إلى 1 ۰ فماذا يجب أن 
تفعل؟! يمكدنا القیام بذلك باستخدام ما یسمی بدالة التنشيط (دالة التفعیل). دالة التنشیط هي 
دالة تحول إدخالًا معینًا (في هذه الحالة ء مجموع الاوزان) إلى إخراج محدد » Fly‏ على مجموعة 
من القواعد: 


m 


دالة التفعيل 
لدينا الآن کل ما نحتاجه تقريبًا لبناء -Perceptron‏ آخر شيء هو التحيز. التحيز هو معامل إضافي 
في الشبكة العصبية يُستخدم لتنظيم الإخراج Ee‏ إلى جنب مع الوزن الإجمالي للمدخلات 
العصبية. بالإضافة إلى ذلك. يسمح مقدار التحيز لدالة التنشيط بالتغییر إلى اليمين أو اليسار. 
أسهل طريقة لفهم التحيز من خلال الثابت c‏ هي دالة خطية: 


ia 
a 
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y =mx +c 
یتیح لك ذلك التمریر لأعلى ولأسفل في السطر لمطابقة التنبؤ مع البيانات بشكل أفضل. إذاكان‎ 
الثابت > غير موجود . سيمر الخط من خلال الأصل (0 ۰ 0) وسيكون لديك تطابق أضعف.‎ 
ومن ثم » فان التحيزات تسمح بتعلم المزيد والمزید من الاختلافات في الأوزان. باختصار » تعني‎ 
لمساحة الادخال إلى الأوزان‎ aS التحيزات تضيف تمثيلًا أكثر‎ of الاختلافات الإضافية‎ 
المستفادة من النموذج. لذلك. يتم حساب المعادلة النھائیة للخلایا العصبية على النحو التالي:‎ 


التحیز + (المدخل + الوزن) )= المخرج 


> P" 


3 


Yun 


كما 6,53 سابقا . يتم استخدام Perceptron‏ في التصنيف الثنائي. دعنا نفكر في بیرسیبترون 
بسيط ومع مثال بسيط نفهم بشكل أفضل كيف يعمل في تصنيف البيانات الثنائية. في هذا 
البيرسبترون لدينا مدخلان 1× و Xa‏ مضروبا في الأوزان Wy‏ و Wa‏ على التوالي ولدينا Cast‏ 


Ux 


Y oli 
ib 


لنقم Cal‏ بإنشاء رسم تخطيطي بمجموعتين مختلفتين من البيانات ممثلة بأشكال دائرية 
ومستطيلة: 
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لنفترض أن هدفنا كان فصل هذه البيانات بحيث يكون هناك تمییز بين الدائرة والمستطيل. يمكن 
لبیرسبترون أن تنشئ حدود قرار لمصنف ثنائي» حيث تكون الحدود هي قرار مناطق المساحة 
على الرسم البياني الذي یفصل بين نقاط البیانات المختلفة. لفهم هذا بشکل أفضلء دعنا نتعامل 
مع الدالة SU‏ یمکننا أن نقول: 


Wy = 0.5 
W2 = 0.5 
b=0 


ái,‏ لذلك ء ستكون دالة perceptron‏ على النحو التالي: 
0.5x4 + 0.5 = 0‏ 


افترض أن دالة التتشیط فى هذه الحال هی دالة خطوية ib... (step function)‏ تنتج 0 آو 1. 
تشير دالة perceptron‏ بعد ذلك إلى أشكال المستطيل بمقدار 1 وأشكال الدائرة بمقدار 0. 
بعبارات أخرى: 
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n if 0.5x, 4-0.5x; > 0 
0, if 0.5x4 + 0.5x2 > 0 

والدوائر. 

خوارزمية التعلم بيرسبترون 

تعلم بيرسبترون عملية بسيطة نسبيًا. هدفنا هو الحصول على مجموعة من الأوزان التي تصنف 

بدقة کل حالة في مجموعة التدريب الخاصة بنا. من أجل تدريب بیرسبترون . DIU‏ ما نقوم بتغذية 

الشبكة ببيانات التدريب الخاصة بنا عدة مرات. فی کل مرة ترى الشبكة مجموعة كاملة من بيانات 

التدریب ‏ نقول إن دورة (epoch)‏ قد مرت. الدورة هي معامل يحددها المستخدم قبل التدريب. 

يمكن تلخيص شبيه الكود لخوارزمية تعلم Perceptron‏ (الخوارزمية 1.3) كالاتي: 


یتم "التعلم "الحقيقيني الخطوتين (2.ب) و (2.ج)» أولاً نقوم بتمرير متجه الميزة عبر الشبکة. 
نحصل على ناتج المنتج الداخلي بأوزان ۷۷ء ونحصل على الناتج Ly,‏ بعد ذلك. يتم تمرير هذه 
القيمة للدالة الخطوية التي ترجع 1 إذاكانت 0 > x‏ والا 0. الآن نحتاج إلى تحديث متجه الوزن 
لدينا للتحركفي اتجاه آقرب إلى التصنيف الصحيح للبيانات. تتم إدارة هذه العملية عن طريق 
تحديث متجه الوزن بموجب قانون دلتاني الخطوة (2.ج). 

يحدد التعبير (d; — yj)‏ ما إذا كان تصنيف المخرجات صحيحًا أم لا. إذا كان التصنيف 
صحيحًاء فسيكون هذا الاختلاف صفراً. خلاف ذلك. سيكون الاختلاف موجبًا أو سالبّاء مما 
يمنحنا اتجاهًا تظهر فيه الأوزان (مما یقربنافی النهاية من التصنيف الصحیح). ثم نضرب 
old — yj)‏ ز× ء مما يقربنا من التصنيف الصحيح. قيمة » هي معدل التعلم ) learning‏ 
(rate‏ لدينا وتتحكمفي كبر sh)‏ صغر) الخطوة. من المهم جدا تعيين هذه القيمة بشكل صحيح. 
على الرغم من أن القيمة الكبيرة ل » تسمح لنا باتخاذ خطوةني الاتجاه الصحیح. إلا أنه لا يزال 
بإمكاننا الوصول إلينا بسهولة من خلال التحسين المحلي أو العالمي.في المقابلء تسمح لنا كمية 
صغيرة من © باتخاذ خطوات صغيرةفي الاتجاه الصحيح وتضمن أننا لا نتجاوز الحد الأمثل 
المحلي أو العالمي. ومع ذلك. قد تستغرق هذه الخطوات الصغيرة وقتا طويلاً حتى يتقارب 
تعلمنا. آخیرّا؛ نضيف متجه الوزن السابقفي الوقت t‏ ۰ )£( رس ء والذي يكمل عملية الانتقال نحو 
التصنیف الصحيح. إذا وجدت هذا الطريق التعليمي محيرًا بعض الشيء فلا تقلق. 

يسمح باستمرار عملية تعلم بیرسیبترون حتى يتم تصنيف جميع عينات التدريب بشكل 
صحيح أو الوصول إلى عدد محدد مسبقا (محدد من قبل المستخدم) من الدورات. يتم ضمان 
الإنهاء إذا كانت ۵ صغيرة بدرجة كافية وكانت بيانات التدريب قابلة للفصل خطيًا. بمعنى آخره 
مع الافتراضات المناسبة. يمكن إظهار أن التعلمني بيرسيبترون سوف يتقارب مع الأوزان 
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الصحيحة من خلال تكرار الخوارزمية الخاصة به. أي أن تعلم الشبكة سيؤدي إلى تقدير الأوزان 
التي تمكن الشبكة من إنتاج القيم الصحيحة عند المخرجات. 
خوارزمية تعلم بيرسيبترون 


1. ابداً متجه الوزن W‏ بقيم عشوائية صغيرة. 
2 حتى يتقارب البيرسيبترون: 
أ. قم بعمل حلقة على كل متجه سمة ز× وقم بتسمية الفئة الفعلية dj‏ في 
ب. خذ × وقم بتمريرها عبر الشبكة وحساب قيمة الإخراج: 
yj = f (w6). x;)‏ 
ج. قم بتحديث الاوزان w‏ 
W: wi(t + 1) = wi(t) + a(d; = Yj )X; i‏ 


السوال هو ماذا يحدث إذا كانت بیاناتنا غير قابلة للفصل خطيًا أو لدينا اختيار ضعيف فی ؟ 
هل سيستمر التدريب إلى أجل غير مسمى؟ فى هذه الحالة ء dole Y‏ نتوقف بعد انقضاء عدد 
معين من الفترات أو إذا لم يتغير عدد التصنیفات الخاطئة في عدد كبير من الفترات (مما يشير 
إلى أن البيانات لا يمكن فصلها خطيًا). 

تنفيذ بيرسيبترون في باینون 

الآن بعد أن درسنا خوارزمية Perceptron‏ ء Jes Les‏ الخوارزمية فی Python‏ (هذا التطبيق 
هو فقط لتعريفك بوظيفة perceptron‏ والعملیة التعليمية الموجودة فى المکتبات . لذلك إذا 
بدت صعبة بعض الشيء بالنسبة لك فلا تقلق, OY‏ يتم استخدام المكتبات والأطر فقط في 
المستقبل وليس هناك حاجة لبرمجة هذه العناصر). أدخل الرمز التالى أولاً: 


# import the necessary packages 
import numpy as np 


class Perceptron: 
def | init | (self, N, alpha-0.1): 
# initialize the weight matrix and store the learning rate 


self.W = np.random.randn(N + 1) / np.sqrt(N) 
self.alpha - alpha 


يحدد السطر 5 منشئ فئة Perceptron‏ والذي يقبل معامل مطلوب ثم معامل اختياري: 
IN *‏ عدد الأعمدة فى متجهات ميزة الإدخال. 
alpha *‏ معدل التعلم لدينا لخوارزمية .Perceptron‏ اضبط هذه القيمة على 0.1 
افتراضيًا. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


في السطر 7 تم أخذ عينات من مصفوفة الوزن W‏ بقيم عشوائية من التوزيع الطبيعي (غاوسي) 

بمتوسط صفر وتباين الوحدة. تحتوي مصفوفة الوزن على مدخلات 1+ «IN‏ واحدة لكل من 

مدخلات IN‏ على متجه الميزة . بالإضافة إلى إدخال واحد للتحيز. قم بقسمة W‏ على الجذر 

التربيعي لعدد المدخلات . وهي تقنية شائعة لقياس مصفوفة الوزن تؤدي إلى تقارب أسرع. 
بعد ذلك » دعنا نحدد الدالة الخطوية: 


def step(self, x): 
return 1 if x > 0 else @ 


لتدريب Perceptron‏ نحدد دالة تسمى fit‏ إذا كانت لديك خبرة سابقة في التعلم الآلي ومكتبة 
scikit-Learn‏ » فأنت تعلم أن تسمية هذه الدالة للتعليم بهذا الاسم أمر شائع: 


def fit(self, X, y, epochs=10): 
X = np.c [X, np.ones((X.shape[0]))] 


تتطلب طريقة fit‏ معاملين إلزاميتن» متبوعة بمعامل اختياري: قيمة X‏ هي بيانات التدريب 
الخاصة با والمعدير هو تسمیات نظ المخرجات (آي ما يجب أن نعي به شبکتنا). eel‏ لديا 
معامل الدورة التدريبية . وهي عدد الدورات التي سيقوم Perceptron‏ بتعليمها. يطبق السطر 
الأخير من الکود التحیز عن طریق إدخال عمود من الوحدات في بیانات التدریب ‏ مما یسمح 
لنا بالنظر إلى التحیز کمعامل قابل للتدریب مباشرة داخل مصفوفة الوزن. ON‏ دعنا نراجع عملية 
التدریب الفعلية: 


# loop over the desired number of epochs 
for epoch in np.arange(@, epochs): 

# loop over each individual data point 

for (x, target) in zip(X, y): 

take the dot product between the input features 
and the weight matrix, then pass this value 
through the step function to obtain the prediction 
= self.step(np.dot(x, self.W)) 
only perform a weight update if our prediction 
does not match the target 
f p != target: 
# determine the error 

error = p - target 
# update the weight matrix 

self.W += -self.alpha * error * x 


RG HHH‏ عد .نم 


VI‏ نستخدم حلقة ونشغلها لعدد من الفترات. لكل فترة . نستخدم Cal‏ الإخراج للحلقة في 
كل نقطة بيانات منفصلة ×. بعد ذلك . يتم أخذ حاصل ضرب الضرب الداخلي بين خصائص 
الإدخال × ومصفوفة الوزن W‏ لتمرير الإخراج من خلال الدالة الخطوية وللتئبؤ بواسطة 
بيرسيبترون. سنقوم بتحديث الوزن فقط إذا كانت توقعاتنا لا تتطابق مع الهدف. إذا كان الأمر 
كذلك . نحدد الخطأ بحساب العلامة (موجبة أو سالبة). 


الفصل الثالت: الشبكات العصبية امامية التغذية 


يتم تحديث مصفوفة الوزن في السطر الأخير من الکود. حيث نتخذ خطوة نحو التصنيف 
الصحيح. خلال عدد من الدورات « يمكن ل Perceptron‏ أن يتعلم الأنماط فى البيانات 
الأساسية ويغير قيم مصفوفة الوزن حتى نتمكن من تصنيف عينات الإدخال لدينا بشکل صحيح. 
الدالة الأخيرة التي نحتاج إلى تحديدها هي predict gol‏ وكما يوحي الاسم. يتم استخدامها 
للتنبؤ بتسميات الفتات لمجموعات بيانات الإدخال: 
def predict(self, X, addBias=True):‏ 
X = np.atleast 2d(X)‏ 
if addBias:‏ 


X = np.c [X, np.onesC(X.shape[012)1 
return self.step(np.dot(X, self.W)) 


تتطلب predict $::J xà; b‏ الخاصة بنا مجموعة من بيانات الادخال X‏ التي يجب تصنیفها. 
يتم أيضًا إجراء فحص على الكود لمعرفة ما إذاكان يجب إضافة عمود التحيز. 

الآن بعد أن تم تنفيذ Perceptron‏ الخاص بناء Ue»‏ نحاول تطبيقه على مجموعة البيانات 
البتية AND)‏ و OR‏ و (XOR‏ ونرى كيف يعمل. 


نختبرها أولاً في مجموعة البیانات "OR"‏ للقيام بذلك , أدخل الرمز التالي: 


# construct the OR dataset 

X = np.array([[0, 0], [@, 1], [1, 01, [1, 11D 
y = 0۵۰۵۲۲۵۷ )]۲101, [1], [1], [11D 

# define our perceptron and train it 
print("L[INFO] training perceptron...") 

p = Perceptron(X.shape[1], alpha=0.1) 

p.fit(X, y, epochs-20) 


يحدد السطران 2 و 3 مجموعة البیانات "ORT‏ يقوم السطران 6 و 7 بتدريبنا بمعدل تعلم a‏ 
0.1 = :ه في 20 دورة تدريبية. 


بعد تدريب Perceptron‏ الخاص بناء نحتاج إلى تقييمه على البيانات للتأكد من أنه قد تعلم 
بالفعل دالة :OR‏ 


# now that our perceptron is trained we can evaluate it 
print("[INFO] testing perceptron...") 
# now that our network is trained, loop over the data points 
for (x, target) in zip(X, y): 

# make a prediction on the data point and display the result 

pred = p.predict(x) 

print("LINFO] data={}, ground-truth={}, pred={}".format( 

x, target[0], pred)) 


الكود النهائي على النحو التالي: 


import numpy as np 
class Perceptron: 
def | init | (self, N, alpha=0.1): 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


self.W = np.random.randn(N + 1) / np.sqrt(N) 
self.alpha = alpha 


def step(self, x): 
return 1 if x > 0 else 0 


def fit(self, X, y, epochs=10): 
X = np.c_[X, np.ones((X.shape[0]))] 
for epoch in np.arange(@, epochs): 
for (x, target) in zip(X, y): 
p = self.step(np.dot(x, self.W)) 
if p != target: 
error - p - target 
self.W += -self.alpha * error * x 
def predict(self, X, addBias-True): 
X = np.atleast 2d(X) 
if addBias: 
X = np.c [X, np.ones((X.shape[01)) ] 
return self.step(np.dot(X, self.W)) 


np.array([[0, 01, [@, 11, [1, 01, [1, 11D 
np.arrayCEE0], [11], [1], [11D 

define our perceptron and train it 
print("LINFO] training perceptron...") 

p = Perceptron(X.shape[1], alpha-0.1) 

p.fit(X, y, epochs-20) 


۱۱ o 


TE x 


print("L[INFO] testing perceptron...") 


for (x, target) in zip(X, y): 
pred = p.predict(x) 
print("[INFO] data={}, ground-truth={}, pred={}".format( 
x, target[0], pred)) 


بعد تنفيذ الكود أعلاه يتم عرض المخرجات على النحو التالي: 


[INFO] training perceptron... 
[INFO] testing perceptron... 
[INFO] data=[@ 0], ground-truth-0, pred=0 
[INFO] data=[@ 1], ground-truth=1, pred=1 
[INFO] data=[1 0], ground-truth=1, pred=1 
[INFO] data=[1 1], ground-truth=1, pred=1 


كما يتضح > کان Perceptron‏ لدينا قادرًا على تعلم عملية .OR‏ عامل التشغيل OR‏ ل = Xo‏ 
0 و0 = x,‏ هو صفر . وجميع المركبات الأخرى متشابهة. 


الآن دعنا ننتقل إلى دالة AND‏ آدخل الكود التالى: 


np.arrayCE[0, 6], [0, 1], E1, 61, ET, TID 

= np.array([[01, [0], [0], [11D 

define our perceptron and train it 

print("L[INFO] training perceptron...") 

p = Perceptron(X.shape[1], alpha-0.1) 

p.fit(X, y, epochs-20) 

# now that our perceptron is trained we can evaluate it 


TEM x 


الفصل الثالت: الشبكات العصبية امامية التغذية 


print("LINFO] testing perceptron...") 
# now that our network is trained, loop over the data points 
for (x, target) in zip(X, y): 

# make a prediction on the data point and display the result 

# to our console 

pred = p.predict(x) 

print("LINFO] data={}, ground-truth={}, pred={}".format( 

x, target[0], pred)) 


لاحظ أن سطور التعليمات البرمجية الوحيدة التي تم تغييرها هنا هي السطرين 1 و2 . حيث 
حددنا مجموعة البيانات AND‏ بدلاً من مجموعة البيانات OR‏ 


بعد تنفيذ الكود السابق . يتم عرض الإخراج على النحو التالي: 


[INFO] training perceptron... 
[INFO] testing perceptron... 
[INFO] data=[@ 0], ground-truth-0, pred=0 
[INFO] data=[@ 1], ground-truth-0, pred=0 
[INFO] data-[1 0], ground-truth-0, pred=0 
[INFO] data=[1 1], ground-truth=1, pred=1 


وقد لوحظ أنه مرة آخری كان Perceptron‏ لدینا قادرا على نمذجة دالة AND‏ بشكل صحيح. 
يكون عامل التشغیل AND‏ صالحا فقط عندما يكو نكل من 1 = و و1 = × ويكون صفرا 
لجميع ترکیبات AND‏ الأخرى. 

أخيرًا > دعنا نلقي نظرة على وظيفة XOR‏ غير الخطية باستخدام -perceptron‏ أدخل الكود 
في الأسفل: 


np.array([[@, 01, [0, 1], [1, 01, ]1, 11D 
np.array({[@J, £1], £1], [01D 
define our perceptron and train it 
print("L[INFO] training perceptron...") 
p = Perceptron(X.shape[1], alpha-0.1) 
p.fit(X, y, epochs-20) 
# now that our perceptron is trained we can evaluate it 
print("L[INFO] testing perceptron...") 
# now that our network is trained, loop over the data points 
for (x, target) in zip(X, y): 
# make a prediction on the data point and display the result 
pred = p.predict(x) 
print("LINFO] data={}, ground-truth={}, pred={}".format( 
x, target[0], pred)) 


X 
y 
# 


من خلال تنفيذ الكود أعلاه. تم الحصول على الإخراج: 


[INFO] training perceptron... 
[INFO] testing perceptron... 
[INFO] data-[0 0], ground-truth-0, pred=1 
[INFO] data-[0 1], ground-truth=1, pred=1 
[INFO] data-[1 0], ground-truth-1, pred=0 
[INFO] data=[1 1], ground-truth-0, pred=0 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


لنقم بتشغيل الكود أعلاه مرة أخرى. كان الإخراج هذه المرة على النحو التالي: 
[INFO] training perceptron...‏ 
[INFO] testing perceptron...‏ 
LINFO] data=[@ 0], ground-truth-0, pred=0‏ 
LINFO] data=[@ 1], ground-truth-1, pred=0‏ 
LINFO] data-[1 0], ground-truth=1, pred=0‏ 
[INFO] data=[1 1], ground-truth-0, pred=1‏ 


لا يهم عدد المرات التي تجري فيها هذه التجربة بمعدلات تعلم مختلفة أو طرق تهيئة مختلفة e‏ 
حيث لا يمكنك آیدا نمذجة دالة XOR‏ باستخدام Perceptron‏ أحادي الطبقة. 


بدلاً من AUS‏ ما نحتاجه هو المزيد من الطبقات ذات دوال التنشيط غير الخطية. 


بيرسيبترون متعدد الطبقات [الشبكة العصبية امامية التغذية) 


كما هو مذكور. فان التقیید الرئيسي للشبكات العصبية بيرسيبترون هو عدم القدرة على تصنيف 
البيانات التي لا يمكن فصلها خطيًا. يعد استخدام طبقة مخفيةفي هيكلية الشبكة بمثابة هروب 
من هذا التقييد. بمعنى آخر. لحل هذا التقیید. يمكن استخدام الطبقة المخفية بين طبقات 
الادخال والاخراج. ومن الأمثلة على هذه الشبکات. والتي تعتبر Cast‏ أساس التعلم العمیق 
شبكات بيرسيبترون متعدد الطبقات .(MultilLayer Perceptron)‏ أو باختصار MLP‏ ء 
والتي تسمی Cal‏ الشبكات العصبية أمامية التغذية .(Feedforward Neural Network)‏ 
تعد هذه الشبكات واحدة من أكثر الشبكات استخدامّافي التعلم العميق نظرًا لتوافقها مع مجموعة 
متنوعة من المشكلات. لأنه لا يوجد حد لإدخاله سواء كانت البيانات صورة أو نص أو فيديو. 


المدخلات 


المخرجات 


الطبقة المخفية العانية J L‏ الطبقة المخفية الاولی 


الشکل 2-3. شبكة عصبية Old‏ طبقتین مخفیتین 


الفصل الثالت: الشبكات العصبية امامية التغذية 


في MLP‏ تتدفق البياناتفي الاتجاه الأمامي من طبقة الادخال إلى الاخراج.في هذا النوع من 
الشبکات. بالانتقال من طبقة إلى آخری. يتم حساب مجموع الاوزان لمجموعة الخلايا العصبية 
في الطبقة السابقة ونقلها إلى طبقة أخرى عن طريق تطبيق دالة تنشيط غير خطية. سبب تسمية 
التغذية الامامية (Feed forward)‏ هو عدم وجود اتصال تغذية مرتدة يتم من خلاله اعتبار 
مخرجات النموذج مرة أخرى كمدخلات للنموذج (القیم تنتقل فقط من الإدخال إلى الطبقات 
المخفية ثم إلى الاخراج ولا توجد قيم يتم إرجاعها إلى الطبقات السابقة. وعلى النقيض من 
ذلك. تسمح شبكة العودة بإرجاع القيم مرة أخرى). بمعنى آخر.في الشبكة العصبية أمامية التغذيق 
تتدفق عمليات التنشيطني الشبكة دائمًا إلى الأمام عبر سلسلة من الطبقات. هذه الشبكة هي Ua‏ 
شبكة متصلة بالكامل «(Fully Connected)‏ لأنكل خلية من الخلایا العصبية للشبكة مترابطة 
بطريقة تستقبل مدخلات من جميع الخلايا العصبیةئی الطبقة السابقة وتنقل تنشيط مخرجاتها 
إلى جميع الخلايا العصبیةنی الطبقة التالية. يوضح الشكل 2-3 مخططا لشبكة عصبية مع طبقتين 

عندما تقوم الشبكة بمعالجة مجموعة من المدخلات الخارجية. يتم تسليم المدخلات إلى 
الشبكة من خلال الخلايا العصبيةفي طبقة الادخال. هذا يجعل الخلایا العصبيةفي الطبقة التالية 
تنتج إشارات تنشيط استجابة لهذه المدخلات. وتتدفق هذه التنشيطات عبر الشبكة لتصل إلى 
طبقة الإخراج. تنشيط الخلايا العصبيةفي هذه الطبقة هو استجابة الشبكة للمدخلات والمخرجات 
النهائية. الطبقات الداخلية للشبكة التي ليست طبقة الإدخال ولا طبقة الإخراج تسمى الطبقات 
المخفية. 

عمق الشبكة العصبية يساوي عدد الطبقات المخفية بالإضافة إلى الطبقة الناتجة. لذلك » 
تتكون الشبكة في الشكل 2-3 من ثلاث طبقات. عدد الطبقات المطلوبة للنظر في عمق الشبكة 
هو سؤال مفتوح. ومع ذلك. فقد ثبت أن الشبكة التي تحتوي على ثلاث طبقات من الخلايا 
العصبية (أي طبقتان مخفيتان وطبقة إخراج واحدة) يمكنها تقريب أي دالة إلى الدقة المطلوبة. 
لذلك . نحدد هنا الحد الأدنى لعدد الطبقات المخفية المطلوبة لاعتبار الشبكة عمیقة طبقتين. 
بموجب هذا التعریف. يتم وصف الشبكة في الشكل 2-3 على أنها شبكة عميقة. ومع ذلك › 
تحتوي معظم الشبكات العميقة على AST‏ من طبقتين مخفيتين. اليوم » تحتوي بعض الشبكات 
العميقة على عشرات أو حتى متات الطبقات. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


يتم تدریب الخلایا العصبية فى MLP‏ باستخدام خوارزمية تعلم الانتشار الخلفی. تعمل 
lios MLPs‏ مقربات عالمیه (universal approximators)‏ بمعنی Jå‏ یمکنهم 
ala gi cu à‏ مستمره ویمکنهم حل المشکلات GUI‏ لا يمكن nA Lalas‏ 


۰. Li 1 ہہ 1 1 وتدریب 1 ^ : ات‎ o ۱ m 1 اکل‎ ^ JI 
الهدف من عملية تعلم الشبكة العصبية هو العثور على مجموعة من قیم الاوزان التي تجعل ناتج‎ 
الشبكة العصبية مطابقا قدر الإمكان مع القيم المستهدفة الفعلية. هناك العديد من المشکلاتنی‎ 

تصميم وتدريب شبكة Perceptron‏ متعدد الطبقات: 


تحديد عدد الطبقات المخفية المطلوب استخدامها في الشبكة. 

قرار استخدام خلايا عصبية متعددة في كل طبقة مخفية. يعد عدد الخلايا العصبية في 
الطبقة (الطبقات) المخفية أحد أهم القرارات في تصميم الشبكة العصبية. إذا لم يتم 
استخدام عدد كاف من الخلايا العصبية. فلن تكون الشبكة قادرة على نمذجة البيانات 
المعقدة وسيكون التطابق الناتج ضعیفا. إذا تم استخدام عدد كبير جدا من الخلایا 
العصبيةء فقد يكون وقت التدريب طویلا جد . والأسوأ من ذلك . قد تؤدي الشبكة إلى 
الضبط الزائد. عند حدوث الضبط الزائد (Overfitting)‏ . تبداً الشبكة في وضع نموذج 
للتشوهات العشوائيةفي البيانات. والنتيجة هي أن النموذج يتلاءم جيدا مع بيانات التدريب 
> ولكنه يعمم بشكل ضعيف على البيانات الجديدة وغير المرئية. يجب استخدام التحقق 
من الصحة لاختبار هذا. 

العثور على حل عالمی أمثل يتجنب الحدود الدنيا المحلية. قد تحتوي الشبكة العصبية 
النموذجية على cotta‏ الأوزان . والتي يجب إيجاد قيمها لإنتاج الحل الأمثل. إذا كانت 
الشبكات العصبية عبارة عن نماذج خطية (مثل الانحدار الخطي) . فان العثور على 
مجموعة الأوزان المثلى ليس بالأمر الصعب. لکن ناتج الشبكة العصبية كدالة للمدخلات 
غالبا ما يكون غير خطي ALU‏ هذا يعقد عملية التحسين. إذا قمت برسم الخطأ كدالة 
للأوزان » فمن المحتمل أن ترى سطحا غير مستو به العديد من الحدود الدنيا المحلية 
على النحو التالي: 


هذه الصورة بسيطة للغاية لأنها تعرض فقط قيمة وزن واحد (على المحور الأفقي). 


الفصل الثالت: الشبكات العصبية امامية التغذية 


* التقارب إلى الحل الأمثل في فترة زمنية معقولة. 
* التحقق من صحة الشبكة العصبية لاختبار الضبط الزائد. 


۱ 1 a e. JI دالة‎ 


دالة التنشيط مهمة Gide‏ التعلم العميق. الغرض من دوال التنشيط هو الحصول على رقم من 
الإدخال وحساب سلسلة من العمليات الحسابية لإنتاج ناتج بين 0 و 1 أو -1 إلى 1. وظيفة 
التنشیطنی كل خلية عصبية اصطناعية. إذا وصلت الإشارات المستلمة إلى الحد الأدنی. فإنها 
ترسل إشارات الاخراج إلى المستوى التالي. ببساطةء تقرر دالة التنشيط ما إذا كان يجب تنشيط 
الخلية العصبية ام لا. 

في التعلم العمیق. الشبكة العصبية بدون دالة التنشيط هي مجرد نموذج انحدار خطي بسيط!؟ 
oY‏ هذه الدوال تؤدینی الواقع حسابات غير خطية عند مدخلات الشبكة العصبية. مما يمكنها 
من التعلم وتنفيذ مهام أكثر تعقیدا. لذلك. تعد دراسة الأنواع المختلفة وتحليل مزايا وعيوب كل 
دالة تنشيط ضرورية لتحديد النوع المناسب لدالة التنشيط التي يمكن أن توفر عدم الخطية والدقة 
في نموذج شبكة عصبية معين. أيضًاء بسبب مشكلة تلاشي الانحدار الاشتقاقي ) Vanishing‏ 
(gradient‏ التى سنتحدث عنها GY‏ يعد إعداد دالة التنشيط الصحيحة للشبكة Gal‏ مهما 
للغاية. ۱ 

لا يمكن أن تكون دالة التنشيط المستخدمةفي الشبكات العمیقة أي دالةء ولكن يجب أن يكون 
لها خصائص معينة. من السمات المهمة لدالة التنشيط أنه يجب أن تكون مشتقة. تتعلم الشبكة 
من الأخطاء المحسوبةني طبقة الإخراج. تؤدي دالة تنشيط مشتقة لتحسين الانتشار الخلفي 
(propagating backwards)‏ لحساب تدرجات الخطأ فيما يتعلق بالاو زان ثم تحسين الأو زان 
باستخدام الانحدار الاشتقاقي (أو أي تقنية تحسين أخرى لتقليل الأخطاء). 


لماذا دوال التنشيط غير الخطية ضرورية؟ 


تقدم دالة التنشيط خطوة إضافيةفي كل طبقة أثناء الانتشار الأمامي «(forward propagation)‏ 
لكن الأمر يستحق الحساب. لنفترض أن لدينا شبكة عصبية تعمل بدون دوال التنشيط.في هذه 
الحالة. تقوم كل خلية عصبية بتحويل خطي على المدخلات باستخدام الأوزان والتحيزات فقط. 
لذلك لم يعد من المهم استخدام طبقات مخفية متعددةفي شبكتك العصبية OY‏ جميع الطبقات 
تتصرف بالطريقة نفسها لأن الجمع بين دالتين الخطيتين هو دالة خطية ولن تتمتع الشبكة بقوة 
أكبر من الانحدار الخطي. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


افترض أن لديك متجه x So!‏ وثلاث طبقات مخفية ممثلة بمصفوفات الوزن Wa Wy‏ و 
W3‏ بدون أي دالة تتشیط تحتوي شبكتك العصبية على الناتج yox W WW;‏ الذي يساوي 
۷ بحيث يكون W = WWW‏ وهذا لیس سوى مضاعفة المصفوفة. COW‏ مع إدخال دالة 
التنشيط غير الخطية بعد كل تحويل خطي» لم يعد هذا يحدث: 

y-h (wf (wa fs (Wax) 


يمكن OW‏ إنشاء كل طبقة فوق نتائج الطبقة غير الخطية السابقة والتي ينتج عنها ساسا دالة 
معقدة غير خطية. 


الميزات المثلى لدالة التنشيط 


كما ذكرنا سابقاء يجب أن يكون لدالة التنشیطنی الشبكات العصبية خصائص معينة. يمكن 
تلخيص الميزات المرغوبة التي يجب أن تتوفرفي دالة التنشيط على النحو التالي: 

* غيرخطى (Nonlinear)‏ كما ذكرنا سابقَاء إذا كانت دالة تنشيط خطیة » فيمكن بسهولة 
البیرسیبترون الذي يحتوي على عدة طبقات مخفية في Perceptron‏ أحادي الطبقة < 
لأنه يمكن ببساطة التعبير عن التركيب الخطي لمتجه الادخال كتكوين خطي واحد لمتجه 
الإدخال . فى هذه الحالة ء لن يتأثر عمق الشبكة. لذلك . فان اللاخطية K‏ دالة التنشيط 
ضرورية عندما کون حدود القرار خر Ah‏ بطبیعتها. نظرا OY‏ اکا العصبية 
الاصطناعية تتعلم الأنماط أو الحدود من البیانات . فإن اللاخطية في دالة التنشيط ضرورية 
حتی یمکن للشبكة العصبية الاصطناعية أن تتعلم بسهولة أي حدود خطية أو غير خطية. 
المرکز- الصفري :(Zero-Centered)‏ يجب أن یکون ناتج دالة التنشيط مرکرّا صفريًا 
حتی لا تتغير التدرجات في اتجاه معین. يتم استدعاء دالة المرکز الصفري عندما یکون 
لمداها قیم موجبة وسالبة. IS]‏ لم تكن دالة تنشيط شبكة مركزية صفرية . فهي دائمًا إيجابية 
أو سلبية دائمًا. لذلك . يتم دائمًا تمرير ناتج الطبقة إلى قيم موجبة أو سالبة. نتيجة لذلك. 
یحتاج متجه الوزن إلى مزید من التحدیث ليتم تدریبه بشکل صحیح. لذلك . إذا لم تكن 
دالة التتشیط مركرًا صفريًا > فسیزداد عدد الدورات التدريبية المطلوبة لتدریب الشبکة. 
هذا هو سبب آهمية ميزة المرکز الصفري ‏ وان لم تكن ضرورية. 
التكلفة الحسابية (Computational Expense)‏ يتم تطبیق دوال التتشیط بعد کل طبقة 
ویجب حسابها ملايين المرات في الشبکات العميقة. لذلك . يجب أن یکون حسابهم 
قلیلا من الناحية الحسابية. 


الفصل الثالت: الشبكات العصبية امامية التغذية 


" قابل للاشتقاق :(Differentiable)‏ يتم تدريب الشبكات العصبية باستخدام عملية 
الانحدار الاشتقاقی. لذلك يجب اشتقاق دالة التنشيط Giy‏ للإدخال. هذا مطلب أساسى 
لتشغيل n às‏ ۱ 

= مستمر (Continuous)‏ يمكن اشتقاق دالة ما لم تكن مستمرة. 

* محاط Bounded)‏ يتم إرسال بيانات الادخال من خلال سلسلة من بيرسيبترون. كل 
منها يحتوي على دالة التنشيط. نتيجة لذلك ‏ إذا لم تقتصر الدالة على حد واحد . فقد 
تنفجر قيمة الإخراج (explode)‏ للسيطرة على هذا الانفجار في القيم . فإن الطبيعة 
المحدودة لدالة التنشیط مهمة ولكنها ليست ضرورية. 


مشاكل دوال التنشيط 


تعد مشكلة تلاشي الاشتقاق (Vanishing Gradient problem)‏ ومشكلة الخلايا العصبية 
الميتة (dead neuron)‏ مشكلتين رئيسيتين تواجههما وظائف التنشيط المستخدمة على نطاق 
واسع: 

* مشكلة تلاشي الاشتقاق: يتم تدريب الشبكات العصبية باستخدام الانحدار الاشتقاقي 
وخوارزمية الانتشار الخلفي. عند استخدام خوارزمية الانتشار الخلفي . يتم حساب التدرج 
بشکل أصغر وأصغر فى المرحلة العكسية. هذا لأنه یجد الانحدار الاشتقاقى فی کل تكرار 
للمشتقات الجزئية بالمرور من الطبقة الأخيرة إلى الطبقة الأولية باستخدام قانون السلسلة. 
في شبكة nly‏ طبقات مخفية ء يتم ضرب مشتقات هذه الطبقة N‏ ببعضها البعض. الآن 
إذاكانت هذه المشتقات صغيرة ‏ فإن الانتقال إلى الطبقات الأولية سینخفض بشكل كبير 
(أو في أسوأ الحالات ستكون صفراً وسيتوقف تعلم الشبكة) سيؤدي ذلك إلى ظاهرة 
تلاشي التدرج \(Vanishing Gradient)‏ تلاشي الاشتقاق. Pas‏ لأن هذه التدرجات 
الصغيرة لا يتم تحديثها في تكرار الخوارزمية . Wes‏ ما تكون هذه الطبقات الأولية فعالة 
في التعرف على البيانات . فإنها تؤدي إلى عدم Bo‏ الشبكة بشكل غير كاف ولا يمكن 
لهذه الطبقات التعلم بشكل صحيح. بمعنى آخر ۰ تختفي تدرجاتها بسبب عمق الشبكة 
وتنشيطها . مما يقلل القيمة إلى الصفر. وبالتالي ‏ لا نريد تغيير دالة تنشيط التدرج إلى 
الصفر. على عكس تلاشی الانحدار « هناك انحدار (Exploding Gradients) ,2«2x»‏ 
إذا كانت قیم ٠ TR‏ فإنها تؤدي إلى تحديثات كبيرة جدا لوزن نموذج الشبكة 
العصبية أثناء التدريب. مع النمو الأسي من خلال النقل إلى الطبقات . تتدفق هذه 
التدرجات الكبيرة في النهاية ولن تكون الأوزان قادرة على التحديث : مما يؤدي إلى إنشاء 
شبکات غیر مستقرة, 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


* الخلايا العصبية الميتة: عندما تفرض دالة التنشيط جزءًا eS‏ من المدخلات على الصفر 
أو بالقرب من الصفرء فإن تلك الخلايا العصبية المقابلة تكون غير نشطة (ميتة) لمساعدة 
الناتج النهائي. أثناء تحديث الأوزان ۰ من الممكن تحديث الأوزان بطريقة تجعل الوزن 
الإجمالي لجزء کبیر من الشبكة صفريًا بالقوة. بالکاد يمكن للشبكة أن تتعافى من مثل هذا 
الموقف . ولا يمكن لجزء كبير من المدخلات أن يساعد الشبكة. هذا يؤدي إلى مشكلة 
لأنه قد يتم تعطيل جزء كبير من الإدخال GLS‏ أثناء تنفيذ الشبكة. تسمی هذه الخلايا 
العصبية التي تصبح خاملة بشدة "الخلايا العصبية الميتة' (dead neuron)‏ وتسمى هذه 
المشكلة مشكلة الخلايا العصبية الميتة. باختصار . الخلايا العصبية الميتة هی شبكة 
عصبية اصطناعية تسمى الخلايا العصبية التي لا يتم تنشيطها أثناء التدريب. يمنع هذا 
العصبون من التعبير عن وزنه لأن مشتقاته ستكون صغيرة جدا أو صفرية. لا تنتشر الأخطاء 
عبر الخلايا العصبية الميتة . لذا فهى تؤثر على الخلايا العصبية الأخرى فى الشبكة. 

دوال التنشيط المفيدة 
في هذا القسم. سنناقش وظائف التنشيط الأكثر استخدامًا وخصائصها. 
Sigmoid‏ 
يتم تعريف وظيفة التنشيط Sigmoid‏ على النحو التالي: 
علس = Ox)‏ 
(x) 1+ ۶×‏ 
حيث x‏ هي مدخلات دالة المنشط. bes OV‏ نبرمج هذافي بايثون: 


def sigmoid(x): 
return 1/(1+np.exp(-x)) 


دالة Sigmoid‏ متصلة ومحصورننی النطاق (0.1) ومشتقة ولكن ليست صفرية المركز. تأخذ 
هذه الوظيفة أي قيمة حقيقية کمدخلات وترجع القيمني النطاق من 0 إلى 1 المخرجات. كلما 
كان المدخل أكبر (أكثر إيجابية): كلما كان الناتج أقرب إلى 1.0 بينما كلما كان المدخل أصغر 
(أكثر سلبية). كلما كان الناتج أقرب إلى 0.0. 

مشتق دالة Sigmoid‏ هو «a(x)‏ دالة Sigmoid‏ (6)2» مضروبةفي a(x)‏ - 1: 


G(x) = o(x).(1 — o(x)) 
التالي:‎ pull على‎ Sigmoid والتي نی بايثون يمكننا أن نبرمج‎ 


def der_sigmoid(x): 
return sigmoid(x) * (1- sigmoid(x)) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


الآن دعنا نوضح دالة 51870010 ومشتقتها. للقيام بذلك آدخل الكود التالي: 


import numpy as np 
import matplotlib.pyplot as plt 


# Sigmoid Activation Function 
def sigmoid(x): 
return 1/(1+np.exp(-x)) 


# Derivative of Sigmoid 
def der_sigmoid(x): 
return sigmoid(x) * (1- sigmoid(x)) 


# Generating data to plot 

x data = np.linspace(-10,10, 100) 
y_data = sigmoid(x_data) 

dy_data = der_sigmoid(x_data) 


# Plotting 

plt.plot(x_data, y_data, x_data, dy_data) 
plt.title('Sigmoid Activation Function 8 Derivative') 
plt.legend(['sigmoid', 'der_sigmoid' ]) 


plt.grid() 
plt.show() 
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تعاني دالة Sigmoid‏ من بعض العيوب الرئيسية. تقتصر دالة 51877010 على النطاق )0:1( 
ومن ثم فإنه ينتج دائمًا قيمة غير سلبية. لذلك فهي ليست دالة تنشيط صفرية المركز. تحول دالة 
4 نطاقًا كبيرًا من المدخلات إلى نطاق صغير (0:1). لذلك يؤدي التغيير الكبير في قيمة 
الإدخال إلى تغيير طفيف في قيمة الإخراج. يؤدي هذا Cal‏ إلى قيم متدرجة صغيرة. بسبب قيم 
التدرج المنخفضة c‏ يتلاشى الانحدار. 

في التطبيقات العملية. فإن دالة Sigmoid‏ على الرغم من شعبيتهاني الماضي. أصبحت أقل 
استخدامًا بسبب مشكلتين مهمتين: 


1. مشكلة تلاشي الانحدار. تتسبب Sigmoid Jl»‏ في مشكلة تلاشي الانحدار في خوارزمية 
الانتشار الخلفي. في هذه الحالة ‏ لا يتم إرسال أي إشارة عبر الخلايا العصبية . لذلك 
لن تتعلم الخلايا العصبية أي شيء أثناء مرحلة التدريب. 

2 ليست صفرية المركز. مخرجات دالة Sigmoid‏ ليست صفرية المركز. ومن ثم. في 
خوارزمية الانتشار الخلفي . يتم إنشاء التدرجات التي تكون إما إيجابية أو كلها سلبیق 
وهي غير مناسبة لتحديث تدرجات الأوزان. 


* يتراوح نطاق إخراجهامن 0 إلى 1 لذلک يمتنها إنشاء الاحتمالات. هذا يجعل 51812010 مفیداللخلایا 
العصبيه الناتجه عن الشبله العصبیه لأغراض التصنيف . 


" |نهاقابله للاشتقاق فی ثل مثان. 


aio yo gle, "‏ التشبع (saturation problem)‏ تعتبرالخليهٌ العصبيهٌ مشبعة إذا وصلت إلى 
الحد الأقصى أو الحد الأدنى لقيمتهاء بحیث yy‏ مشتقها يساوى 0. فى هذه aI‏ لايتم تحدیت 
الأوزان » ممايؤدى إلى ضعف التعلم Li‏ العميقة. 

* انهاليستدالهُ صفريهٌ المرثز. وبالتالى » فان تدرج جميع الأوزان المرتبطه بالخلاياالعصبييخون موجبا 
أوسلبيا. bl‏ عملیهٌ التعدیت . يسمح لهذه الأوزان بالتحرگ فی اتجاه واحد bad‏ أى إيجابي نأو سلبیهً 
فی ثل مرةٌ. هذا يجعل الأمراكثرصعوبةلتحسين دال الخطاً. 

a‏ لها تخلفهُ حسابيهعاليةٌ. تؤدى هذه الداله عملیه أسيةٌ ينتج عنهاوقت حسابى آثبر. 


tanh 
وشكلها الرياضي هو كما يلي:‎ Sigmoid وثیقا بدالة‎ bls)! tanh تنشيط‎ Jl» ترتبط‎ 
sinhx) e*—e"* 

cosh(x) e*-4e-* 


في بايثون یمکننا برمجتها على النحو التالي: 


f(x) = tanh(x) = = 20(2x) — 1. 


def htan(x): 
return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x)) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


كما يتضح من المعادلة أعلام tanh ob‏ هو ببساطة نسخة مصغرة من Sigmoid‏ ومع ذلك 
فهو صفري المرکز. وبالتالي فإنه لا يظهر بعض المشاكل التي gly‏ منها -Sigmoid Activator‏ 
هذه الدالة مستمرة ومشتقة ومحصورةق النطاق (-11). وبالتالي: فإنه ينتج سالب» موجب. 
وصفر کمخرجات. ويتم تعيين المدخلات السلبية بشدة إلى tanh‏ كمخرجات سالبة. لذلك. OB‏ 
دالة التنشيط tanh‏ تتمحور حول الصفر وتحل مشكلة صفر المركز لدالة -Sigmoid‏ 
يتم حساب مشتق tanh llo‏ على النحو التالي: 
f(x) = 1 - f(x)’‏ 
والتيفي بایٹون يمكننا كتابتها على النحو التالي: 


def der_htan(x): 
return 1 - htan(x) * htan(x) 


دعنا نوضح دالة tanh‏ ومشتقاتها. للقيام بذلك آدخل الكود التالي: 


import numpy as np 
import matplotlib.pyplot as plt 


# Hyperbolic Tangent (htan) Activation Function 
def htan(x): 
return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x)) 


# htan derivative 
def der_htan(x): 
return 1 - htan(x) * htan(x) 


# Generating data for Graph 
x_data = np.linspace(-6,6,100) 
y_data = htan(x_data) 

dy_data = der_htan(x_data) 


# Graph 

plt.plot(x_data, y_data, x_data, dy_data) 
plt.title('htan Activation Function & Derivative’) 
plt.legend(['htan','der htan']) 

plt.grid() 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


htan Activation Function & Derivative 
1.00 + —— htan 
0754 — der htan 
0.50 
0.25 
0.00 
—0.25 
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* على Sigmoid de‏ ءفھی all,‏ صضریه المرثزلتسهيل تحسين دال الخطاً. 


* تنعيم ناتج الخلايا العصبية فى النطاق بين 191 


* انهامکلفه‌حسابیا. 


* انهاعرضهلتلاشی الانحدار. 


ReLU 
في الشبكات متعددة الطبقات بسبب مشكلة تلاشي‎ tanh sSigmoid لا يمكن استخدام دوال‎ 
شیوعانی التعلم العميق (الطبقة‎ ASW ء وهي دالة التنشيط‎ ReLU الانحدار. دالة التنشيط‎ 
المخفية) . تتغلب على مشكلة تلاشي الانحدان مما يسمح للشبكة بالتعلم بشکل أسرع وأداء‎ 

أفضل. يتم تعريف دالة ReLU‏ على النحو التالي: 
ye bid > 0‏ 
(x forx>0‏ ` 
في بايثون یمکننا کتابتها على النحو التالي: 
def ReLUCx):‏ 


data = [max(@,value) for value in x] 
return np.array(data, dtype=float) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


يتم حساب مشتق دالة ReLU‏ على النحو التالي: 


z 0 forx <0 
joe 


في بایثون يمكننا كتابتها على النحو التالي: 


def der_ReLU(x): 
data = [1 if value>@ else @ for value in x] 
return np.array(data, dtype=float) 


أدخل الكود التالي لتوضيح دالة RELU‏ ومشتقاتها: 


import numpy as np 
import matplotlib.pyplot as plt 


# Rectified Linear Unit (ReLU) 

def ReLUCx): 
data - [max(0,value) for value in x] 
return np.array(data, dtype-float) 


# Derivative for ReLU 

def der_ReLU(x): 
data = [1 if value>@ else 0 for value in x] 
return np.array(data, dtype-float) 


# Generating data for Graph 

x data - np.linspace(-10,10,100) 
y_data = ReLU(x data) 

dy. data = der ReLU(x. data) 


# Graph 

plt.plot(x data, y data, x data, dy data) 
plt.title('ReLU Activation Function & Derivative') 
plt.legend(['ReLU', 'der ReLU' ]) 

plt.grid() 

plt.show() 


ReLU Activation Function & Derivative 


10 + — ReLU 
سس‎ der ReLU 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


* يسرع بشكل تُبيرتقارب الانحدار الاشتقاقى العشوائی مقارنه بدالهُ 51800010 
* يمثنه التعامل مع‌مشئله تلاشی الانحدار. 

* إنهادالة حسابية رخيصة. 

* إنهادالة التنشيط الأثثراستخداما. 


* يتقارب بسرعه تبیره. 


* ليست صفره المرتز. 

* لدیه‌مشئلهٌ مع الخلایاالعصبیه الميتة. الجانب السلبی من الرسم البیانی يعيد ضبط قيمه التدرج إلى 
الصفر. لهذا السبب. لا تحدث الأوزان والتعیزات لبعض الخلايا العصبية آثناء عملي الانتشار الخلفی. 
هذایمان أن ينتج خلایاعصبیهمیتەُلایتم تنشيطهاأبدا. بمعنی آخر تون جمیع قیم الادخال السلبية 
صفریه على الفور » ممایقلل من قدرهٌ النموذج على تعلیم البیانات Buby‏ صحیح. 


عندما ReLU (aly‏ مدخلات سلبية. یکون الناتج صفرًا. لذلک, لا یتعلم gl‏ شىء من 
خلال النشر اللاحق ail)‏ لا یمکنک عکسہ). بمعنی JA‏ إذا كان المشتق صفراً. فان 


التنشیط الاجمالی يساوى on‏ لذلک لا توجد مساهمه ALU‏ الخلایا العصبية فی 
الشبك 6 


Softmax 
كمخرجني مسائل التصنيف متعدد الفثات لإيجاد احتمالات لفتات‎ sofmax تستخدم دالة‎ 
Softmax الذي بُفضل للتصنيف الثنائي). تحسب وظيفة‎ Sigmoid مختلفة (على عكس‎ 
احتمالات كل فئة هدف على جميع الفئات المستهدفة الممكنة (مما يساعدفي تحديد الفئة‎ 


المستهدفة): 
efi‏ 
Softmax (zi) = XE. en. for j =1,...,k‏ 
Softmax e 5‏ الاحتمال لنقطة بيانات تنتمي إلى كل فئة على حدة. لاحظ أن مجموع كل القيم 
هو 1. 


في بايثون یمکننا برمجتها على النحو التالي: 


def softmax(x): 
return np.exp(x) / np.sum(np.exp(x), axis-0) 


أدخل الکود التالي لتوضيح دالة :Softmax‏ 


الفصل الثالت: الشبكات العصبية امامية التغذية 


import numpy as np 
import matplotlib.pyplot as plt 


# Softmax Activation Function 
def softmax(x): 
return np.exp(x) / np.sum(np.exp(x), axis-0) 


# Generating data to plot 
x data - np.linspace(-10,10,100) 
y_data = softmax(x data) 


# Plotting 

plt.plot(x_data, y_data) 
plt.title('Softmax Activation Function' ( 
plt.legend(['Softmax']) 

plt.grid() 

plt.show() 


Softmax Activation Function 
0.1754. — Softmax 
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بالنسبة لمشاكل التصنيف متعدد الطبقات. تكون طبقة المخرجات كبيرة مثل الفئة المستهدفة 
من الخلايا العصبية. على سبيل المثالء افترض أن لديك 4 فتات -[A, 8, C, D]‏ ومن ثم 
سيكون هناك 4 jimas LOG‏ طبقة الاخراج. لنفترض أن ناتج دالة Softmax‏ لبيانات ما 
يساوي ]0.26:0.14.0.41.0.19[( BIL‏ إلى قيمة الاحتمال یمکننا القول إن الادخال ینتمی 
إلى الفئة C‏ ۱ 


التحسين ودالة الخطأ (Loss Function)‏ 

خوارزميات التحسين عبارة عن خوارزميات تُستخدم لتقليل دالة الخطأ / التكلفة (دالة الخطأ 
هي خطأ عينة تعليمي واحد. بینما دالة التكلفة هي خطأ مجموعة البيانات التعليمية بأكملها) عن 
طريق تحدیث أوزان الشبكة. تلعب خوارزميات التحسين دورًا مهما للغايةفي عملية تدريب الشبكة 
ولها تأثير مباشر على وقت التدريب الذي يقضيه. بمعنى آخر. خوارزميات التحسين للتعلم 
العميق هي المسؤولة عن العمل المعقد لنماذج التعلم العميق للتعلم من البيانات. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


لفهم ما هو التحسين؟ يجب علينا أولا تحديد الهدف. يعتمد الهدف على ميزات معينة للنظام 

تسمى المتغيرات. هدفنا هو إيجاد قيم المتغيرات التي تعمل على تحسين الهدف. معظم 

المتغيرات محدودة نوعا ما. من وجهة نظر رياضية. التحسين هو عملية تکبیر (maximizing)‏ 

أو تصغیر Xl» (minimizing)‏ موضوعية f(x)‏ من خلال البحث عن متغيرات مناسبة × فيما 
يتعلق بقيود ٥٥ء‏ والتي يمكن ضغطها على النحو التالي: 

c;(x) = 0, ie ع‎ 

ci(x) = 0, ieg 

حیث E‏ و 7 هما على التوالى مجموعة من المؤشرات لقيود المساواة وعدم المساواة. هذه 

العبارة الحسابية مخيفة بالتأكيد للوهلة الأولى !!» ربما لأنها محسّنة لوصف ple‏ لکن لا تقلقء 


minyegn f (x)subject to f 


JS‏ شيء سیتضح لاحقا. 

هناك ide‏ طرق مختلفة لتحسین التعلم العمیق. على سبیل المثال. آبسط خوارزمية تحسین 
مستخدمةفي التعلم العميق هي الانحدار الاشتقاقي Gradient Descent‏ . الانحدار الاشتقاقي 
هو خوارزمية تحسين تكرارية من الدرجة الأولى تستخدم للعثور على الحد الأدنى المحلي لدالة 
معينة. هذا يعني أنه يتم أخذ المشتق الأول فقطنی الاعتبار عند تحديث المعاملات. في كل تکرار 
نقوم بتحديث المعاملاتفي الاتجاه المعاكس لتدرج الوظيفة الهدف )8( یتم تحديد حجم 
الخطوة التي نتخذهاني كل تكرار للوصول إلى الحد الأدنی المحلي من خلال معدل التعلم ». 
لذلك. نتبع اتجاه التدرج لأسفل للوصول إلى الحد الأدنی المحلي. 

طريقة أخرى هي تحسين نیوتن. والتي تساعد على تحسين المحسنات باستخدام مشتق من 
الدرجة الثانية من خلال إيجاد جذور الدالة. ومع ذلك فإن هذه الطريقة تزيد بشكل كبير من 
التعقيد الحسابى مقارنة بطرق الانحدار الاشتقاقی. والتى تعتمد على مشتقة من الدرجة الأولى. 
لذلك. يُفضل m‏ التدرجاتفي تدريب الشيكة العصبية. هناك خوارزميات مختلفة تعتمد على 
الانحدار الاشتقاقي. استمرارًا لهذا القسم. وبعد وصفه الکامل. سنقدم ونراجع إصدارات أخرى 
من هذه الخوارزمية. 


فى عملي 00/10000 


لتقليل مقدار الخطا الذی یلعق بدالة الخطا. 


الانحدار الان ستقاقي' 


تعد خوارزمية الانحدار الاشتقاقى طريقة تحسین قائمة على التكرار تحاول تقليل مقدار دالة 
الخطأ عن طريق تغيير الأوزان الداخلية للشبكة العصبية.في هذه الطريقة. يتم تحديث أوزان 


1 Gradient Descent 


الفصل الثالت: الشبكات العصبية امامية التغذية 


الشبكة تدریجیّا وفي کل تکرار تحاول الخوارزمية تقلیل قيمة دالة الخطأ. يتم تنفيذ هذه العملية 
طالما أن تكرارها لا يؤدي إلى تغییرنی دالة الخطأ. 

هناك ثلاث طرق عامة لاستخدام الانحدار الاشتقاقي: الانحدار الاشتقاقي الكامل (Batch‏ 
«gradient descent)‏ الانحدار الاشتقاقي دفعة (Mini-batch gradient?.x2»‏ 
.descent)‏ عندما يتم التحديث بعينة واحدة فقط. gies‏ عليه طريقة الانحدار الاشتقاقي 
العشوا ائي (Stochastic gradient descent)‏ او اختصارا (SGD)‏ 


في هذه طريقة الانحدار الاشتقاقي العشوائي» يتم الحصول على إجراءات وآوزان جديدة عن 
طريق إدخال کل عينةفي شبكة التحديث. عيب هذه الطريقة أنها تتعثرفي الحد الأدنى المحلی. 
بالإضافة إلى ذلك. فإنه يحتوي على نتائج غير مستقرة بسبب الاستجابة لكل إدخال de‏ 
الشبكة. 


في طريقة الانحدار الاشتقاقي الكامل یتم تغذية الشبكة بجميع عینات التدريب. تقوم الشبكة 
بإجراء تحديث مرة واحدة لجميع العينات بعد حساب الخطأ. على الرغم من أن هذه الطريقة 
تساعد النموذجنی الهروب من الحد الأدنى المحلي وتوفر تقاربًا أكثر ÉL‏ مقارنة بالانحدار 
الاشتقاقي للعینة إلا أنها مع ذلك تؤدي إلى وقت تدريب أطول. Lal‏ ليس من الممكن دائمًا 
إرسال جميع عینات التدريب إلى الشبكة بسبب نقص الذاكرة.في الفجوة بين الطريقتين» يتم 
استخدام الانحدار الاشتقاقي دفعة صغيرة (mini-batch gradient descent)‏ .3( هذه الطريقةء 
يتم تغذية الشبكة بمجموعة من عينات التدريب للاستفادة من الطريقتين السابقتين. يتمتع 
تحديث المعاملات باستخدام مجموعة من العينات بميزة مهمة: باستخدام هذه الطريقة. يكون 
النموذج أكثر مقاومة من العينات الصاخبة data)‏ وزهآ)ولدیه تباین أقلفي تحديث 
المعاملات. هذا يوفر تقاربا أكثر استقرارا. ومع ذلك. تتطلب هذه الأساليب اختيار معدل التعلم 
(a)‏ الذي ليس من السهل دائمًا اختياره. بالإضافة إلى ذلك. لا يمكن أن يكون معدل التعلم نفسه 
في جميع المراحل التدريبية ولجميع المعايير المختلفة هو الأمثل. إذا تم اختيار 0 بحجم كبير 
le‏ فقد يتقلب التدريب أو لا يتقارب أو يتجاوز الحدود الدنيا المحلية ذات الصلة.في المقابلء 
إذا تم اختيار معدل تعليمي صغير جدا. فإنه يؤخر بشكل كبير عملية التقارب. ومن ثم OB‏ 
الأسلوب الشائع للتحايل على هذا هو استخدام انحلال معدل التعلم (rate decay)‏ على سبيل 
المثال. يمكن أن يؤدي استخدام الانحلال إلى تقليل معدل التعلم بعدة فترات. هذا يسمح بقدر 
أكبر من التعلم‌في بداية التدريب ومعدل تعلم أقلفي نهاية التدريب. ومع ذلك. فإن طريقة الانحلال 
هذه هي Call‏ معاملات فائقةفي حد ذاتها ويجب تصميمها بعناية اعتمادًا على التطبيق. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


الهدف من مُحسّن معدل التعلم التكيفي هو حل مشكلة إيجاد معدل التعلم الصحيح.في هذه 
الأسالیب. لا يكون معدل التعلم © متغيرًا Sols‏ ولكن بدلاً من ذلك يكون لکل معامل قابل 
للتعليم معدل التعلم الخاص بها.في حين أن هذه الطرق لا تزال بحاجة إلى معاملات. الا انها 
تعمل بشكل جيد مع نطاق أوسع من التنظيمات؛في كثير من الأحیان. انهم فقط يستخدمون 
المعاملات الفائقة الافتراضية المقترحة. 


تنفيذ الانحدار الا ^ تقاقي في بايثون 


كما ذكرنا EL‏ التحسين أردنا تصغير دالة. لنرى الآن كيف یمکننا حل دالة fmin‏ بفضل 
حساب التفاضل والتکامل. لدينا أداة تسمى الانحدار. تخیل كرة على قمة تل. نحن نعلم أن التلال 
لها تدرجات مختلفةفي أماكن مختلفة. بسبب الجاذبية» تتحرك الكرة أسفل منحنی التل.في أي 
اتجاه تذهب الكرة؟ منحدر شديد الانحدار. بعد فترة. تصل الكرة إلى الحد الأدنى المحلي حيث 
تكون الأرض مسطحة بالنسبة لمحيطها. هذه هي طبيعة الانحدار الاشتقاقي. یمکننا تحويل 
المسار السلس للكرة إلى خطوات صغيرة.في الخطوة ا . سيكون لدينا کمیتان: طول الخطوة Ap‏ 
والاتجاه py‏ لمشاهدة الانحدار الاشتقاقيني الممارسة العملیة. نقوم أولاً باستیراد بعض 
المكتيات. 
import numpy as np‏ 
import matplotlib.pyplot as plt‏ 


from matplotlib.ticker import MaxNLocator 
from itertools import product 


2 


للبدء. نحدد دالة موضوعية بسيطة 3 — f(x) = x? — 2x‏ أن x‏ هي آرقام حقيقية. نظ 
لآن الانحدار الاشتقاقي يستخدم الانحدار فإننا نحدد أيضًا الانحدار . وهو فقط المشتق 
الأول من f‏ يعنى 2 - Vf (x) = 2x‏ 


def func(x): 
return x**2 - 2*x - 3 


def fprime(x): 
return 2*x - 2 


بعد ذلك. نحدد دوال بايثون لرسم دالة الهدف ومسار التعلم أثناء عملية التحسين: 


def plotFunc(x@): 
x = np.linspace(-5, 7, 100) 
plt.plot(x, func(x)) 
plt.plot(x0, func(x0), 'ko') 
plt.xlabel('$x$') 
plt.ylabel('$f(x)$') 
plt.title('Objective Function') 


def plotPath(xs, ys, x0): 
plotFunc(x0) 
plt.plot(xs, ys, linestyle='--', marker='0', color='#F12F79') 
plt.plot(xs[-1], ۷5۲-1 1, 'ko') 


الفصل الثالت: الشبكات العصبية امامية التغذية 


من الرسم البياني آدناه. یمکننا أن نرى بسهولة أن f‏ لھا قيمة دنيا هي 1 = ×. لنفترض أننا بدأنا 
ب 4— = ×(المشار إليها بنقطة سوداء أدناہ)ء نريد أن نرى ما إذاكان الانحدار الاشتقاقى يمكنه 
تحديد الحد الأدنى المحلى 1 = ×. 


x0 = -4 
plotFunc(x0) 


Objective Function 


fix) 


x 


نحدد خوارزمية الانحدار الاشتقاقی البسيط على النحو التالی: لكل نقطة xp‏ في بداية الخطوة ck‏ 
نحافظ على طول الخطوة ary‏ ثابتا ونضبط اتجاه py‏ سلبيًا على قيمة الانحدار. نقوم بتنفيذ هذه 
الخطوات باستخدام الصیغة التالية: 


Xk+1 = Xk + 6 


حيث یکون الانحدار آعلی من قيمة تحمل معينة (فی حالتنا 1079 X‏ 1( ویکون عدد الخطوات 
قيمة معينة (في حالتنا 1000( 


def GradientDescentSimple(func, fprime, x0, alpha, tol-1e-5, max iter-1000): 
# initialize x, fOO, and =f" CX) 
xk = x0 
fk = func(xk) 
pk = -fprime(xk) 
# initialize number of steps, save x and f(x) 
num_iter = 0 
curve_x = [xk] 
curve_y = [fk] 
# take steps 
while abs(pk) > tol and num_iter < max_iter: 
# calculate new x, f(x), and -f'(x) 
xk = xk + alpha * pk 
fk = func(xk) 
pk = -fprime(xk) 
# increase number of steps by 1, save new x and f(x) 
num iter += 1 
curve. x.append(xk) 
curve y.append(fk) 
# print results 
if num_iter == max_iter: 
print('Gradient descent does not converge. ') 
else: 
print('Solution found:\n y = {:.4f}\n x = {:.4f}'.format(fk, xk)) 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


return curve_x, curve_y 


نبدأ من 4- = x‏ ونشغل خوارزمية الانحدار الاشتقاقى على f‏ بسيناريوهات مختلفة: 


Qy = 1 

9 = پیم 

âk = 1x 107^ 
a, = 1.01 


السیناریو الاول: 0.1 = ينه 


xs, yS = GradientDescentSimple(func, fprime, x0, alpha-0.1) 
plotPath(xs, ys, x0) 


Solution found: 
y = -4.0000 
x = 1.0000 


Objective Function 


fix) 


السيناريو الثاني: 0.9 = به 


XS, yS = GradientDescentSimple(func, fprime, x0, alpha-0.9) 
plotPath(xs, ys, x0) 


Solution found: 
y = -4.0000 
x = 1.0000 


الفصل الثالت: الشبكات العصبية امامية التغذية 


Objective Function 


السیناریو الثالث: ^107 x‏ 1 = ينه 


xs, ys = GradientDescentSimple(func, fprime, x0, alpha=1e-4) 
plotPath(xs, ys, x0) 


Gradient descent does not converge. 


Objective Function 


fix) 


السیناریو الرابع: 0.1 = Qy‏ 


xs, ys = GradientDescentSimple(func, fprime, x0, alpha-1.01, max_iter=8) 
plotPath(xs, ys, x0) 


Gradient descent does not converge. 


Objective Function 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


يمكن تلخيص ما حصلنا عليه من الرسوم التوضيحية Godel‏ السيناريوهات المختلفة على 
النحو التالى: 
السیناریو الأول متقارب بسهولة. حتی إذاکان طول الخطوة ثابتاء فان الاتجاه ينخفض إلى 
الصفرء مما يؤدي إلى التقارب. 
يتقارب السيناريو الثاني Cal‏ على الرغم من تذبذب مسار التعلم بسبب طول الخطوة 
الكبيرة حول الحل. 
السيناريو الثالث يتحرك نحو الحل. ومع ذلك. فإن طول الخطوة صغير جد بحيث يتم 
تكبير عدد التکرارات ولا يمكنه العثور على الإجابة.في هذه الحالة تؤدي زيادة الحد الأقصى إلى 
حل المشكلة. 
السيناريو الرابع مختلف بسبب طول الخطوة الكبيرة. هناء قمنا بتعيين 8 = max iter‏ 
لتحسين الرسم التوضيحي. 
شيء واحد يمكن فهمه هو أن الحل 1 = × يمكن الحصول عليه بانحدار اشتقاقي بطول 
الخطوة المناسب. ۱ 
قد تتساءل عن سبب عدم استخدامنا لحل تحليلي دقيق: خذ المشتق گر ء ثم حل × بحيث 
تكون المشتقة صفرًا. بالنسبة للمثال السابق نجد أن × التي تقلل من f‏ تحقق- Vf (x) = 2x‏ 
2 ۰ آي .1 = x‏ نعم هذه طريقة واحدة. ولكن عندما تواجه مشكلة تحسين حيث یصعب أو 
يستحيل حل المشتقة f‏ لم يعد يوصى بهذه التقنية. 
لاحظ أن التنفيذ البسيط آعلاه كان فقط من أجل فهم آفضل لكيفية عمل الانحدار الاشتقاقي 
مع الرسم التوضيحي.في الممارسة العملية» ليست هناك حاجة للتنفیذ. وتتضمن أطر التعلم 
العميق التنفيذ الفعال لهذه الخوارزميات. 
الانحدار الاشتقاقي المعتمد على الزخم (Momentum)‏ 
تأخذ طريقة الانحدار الاشتقاقي القياسي باستخدام معدل التعلم » خطوة صغيرةفي الاتجاه 
المعاكس للانحدار. هذا المعامل له قيمة ثابتة طوال عملية التعلم. معادلته الرياضية على النحو 
التالي: 
(ع0)ع17.نه — Ot+1 = 0t‏ 
حيث ,0 هي معاملات / آوزان النموذجفي الفترة 6 ء Ve (Oe)‏ هي الانحدار لكل وزن ,40( الفترة 
t‏ و » هي معدل التعلم. يتحرك الانحدار الاشتقاقي القياسي بشكل مستقل عن الخطوات السابقة 
بحجم خطوة ثابت إلى أسفل. إذا كانت الدالة المستهدفة مثل وادي طويل مع تحسينات محلية 
وجدران منحدرة علی کلا الجانبین (انظر الشکل 3-3) « فسیکون تحدیث الأوزان E‏ جذا 
وسيودي إلى عدد کبیر من الخطوات. لحل هذه المشکلة Gla;‏ الزخم (Momentum)‏ 


الفصل الثالت: الشبكات العصبية امامية التغذية 


خوارزمية الانحدار الاشتقاقي. الفكرة الرئيسية للزخم هي إضافة ذاكرة قصيرة المدى إلى الانحدار 
الاشتقاقي. بمعنى آخر, بدلاً من استخدام الانحدار للمرحلة الحالية لتوجيه البحث. يقوم الزخم 
Cad‏ بتجميع تدرجات الخطوات السابقة لتحديد الاتجاه. يمكن تنفيذ هذه الآلية على النحو 
التالى: 
Vi‏ — 0 = يبع 6 
(0) 0۰۷ — و۷ Ve = Y.‏ 

في هذه المعادلات. y‏ هو تعبیر الزخم الذي بحدد تأثیر الانحدارات السابقة على التحدیث 
الحالي. الفكرة العامة هي وضع هذه العبارة بالقرب من 1 قدر الامکان واختیار قيمة عالية قدر 
الامکان لمعدل التعلم» مع الحفاظ علی تقارب مستقر. 


2D Griewank Function 


شکل 3-3. توضيح دالة Griewank‏ 


من خلال إضافة المحفوظات إلى Walco‏ تحدیث المعامل بناء على الانحدار الذى تمت 


مواجهته فی التحدیثات السابقة. pes‏ الزخم الانحدار الاشتقاقی (یضیف ذاکرۂ aul‏ 
بطريقة (Lo‏ مما )526 إلى تقارب آسرع. 


الانحدار الاشتقاقي المسرع نیستوروف (NAG)‏ 


يبدو أن تشبیه الكرة التي تتدحرج إلى آسفل الوادي وتتسارع من خلال الزخم هو ميزة جيدة 
للتنفید. ومع ذلك. لا تتوقف الكرة عندما GOSS‏ الوادي» فهي تدور آکثر فأكثر حتی تنتهي 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


السرعة. من ناحية آخری, إذا كان هناك صعود على الجانب الآخر من الوادي فسيؤدي ذلك إلى 
ارتداد الكرةفي النهاية للخلف. ولكن ستكون هناك عدة تقلبات قبل أن تتوقف الكرة عند أدنى 
alan‏ الوادي. جاء نيستوروف (1983) بفكرة منع الكرة من الارتفاع عالياً. لحساب حجم 
الخطوةفي الفترة الحالية» تقوم بحساب التدرج اللونيفي الموقع التقريبي حيث تنتهي الكرة 
الكبيرة جدا المؤدية إلى الجانب الآخر من الوادي. يطبق نيستوروف هذه الطريقة على النحو 
التالى: 
Vi‏ - 0 = 0:141 
V, =V-Ve-1 — 0.۷00 — Y. Ve-1)‏ 
تسمى هذه الطريقة ب Nesterov Accelerated Gradient Descent‏ أو NAG‏ للاختصار. 
عيب هذه الطريقة هو حساب y. Vii)‏ - ,۷:60 ۰ والتي يمكن أن تستغرق وقنًا حسابيًا لبعض 
الشبكات. يقترح Sutskever‏ وآخرون )2013( تعديل حساب Ve‏ على النحو التالي: 
V, = y. m, + a. V4(0,)‏ 
m, = y.m,.4 + a.V4(0,)‏ 
à Lo j Jlgà‏ الانحدار الاشتقاقى فی keras‏ 
عند استخدام Keras‏ لتحدید المحسّن» يمكن تخصيص محسُن الانحدار الاشتقاقي العشوائي 
(SGD)‏ عن طريق أخذ عينات مباشرة من فئة SGD‏ واستخدامها عند تجميع النموذج: 
from tensorflow.keras.optimizers import SGD‏ 


sgd = SGD(learning rate-0.0001, momentum-0.8, nesterov=True) 
model.compile(optimizer-sgd, loss = ..., metrics= ...) 


تقبل فئة SGD‏ باراميتر (learning rate)‏ (معدل التعلم مع الإعداد الافتراضي إلى 0.01(« 
والزخم (momentum)‏ ونستروف nesterov‏ بقيمة منطقية ومعامل انحلال (decay)‏ اختيارية. 


خوارزميات تحسين معدل التعلم التكيفي 
تستخدم جميع إصدارات الانحدار الاشتقاقي التي تم تقديمها حتى الآن نفس معدل التعلم 
لحساب تحديث كل معامل على حدة. لکن النقطة المهمة هي أن معلومات الانحدارفي تحديث 


واحد يمكن أن تكون أكثر أهمية لمعامل واحد من أخرى. لذلك.في مثل هذه الحال يجب أن 
يتخذ المعامل ذات التحديثات الأكثر آهمية خطوة أكبرفي اتجاه الانحدار من المعامل ذات 


الفصل الثالت: الشبكات العصبية امامية التغذية 


التحديثات الأقل أهمية. بمعنى ST‏ لتسريع عملية التعلم» يجب أن يكون لكل معامل يجب 
تحديثه معدل التعلم الخاص Se‏ كل دورة تدريبية. 

ومن ثم. تم اقتراح خوارزميات مختلفة لحل هذه المشكلة من أجل تكييف معدل التعلمفي 
مراحل مختلفة من الخوارزمية لإنشاء تقارب شبكة آسرع. فيما يلي سنراجع بعض هذه 
الخوارزميات. 
Adagrad‏ 
يمكن أن يكون العثور على معدل التعلم الأمثل لخوارزمية التعلم العميق مشكلة معقدة. إذا تم 
تعیین معدل التعلم مرتفعًا جداء فقد يتقلب المعامل على نطاق واسع للوصول إلى مستوى خطأ 
مقبول. من ناحية آخری» فإن تحديد معدل تعليم منخفض للغاية سيؤدي إلى تقدم بطيء للغاية. 
تم تقديم Adagrad‏ لهذا الغرض. حيث يكون الاختيار اليدوي لمعدلات التعلم المختلفة لكل 
بُعد من أبعاد المشكلة غير عملي نظرًا لحجم الأبعاد. يقيس Adagrad‏ بشكل نسبي معامل معدل 
التعلم لكل بعد للتأكد من أن عملية التعلم ليست بطيئة جدا ولا متقلبة للغاية وغير دقيقة. للقيام 
بذلك. تجمع خوارزمية AdaGrad‏ دینامیکیّا بين المعرفة الهندسية للبيانات التي لوحظتفي 
التكرارات السابقة. ثم يطبق هذه المعرفة لضبط معدلات التعلم المنخفضة للحصول على ميزات 
أكثر شيوعًا ومعدلات تعلم أعلی لميزات نادرة نسبيًا. نتيجة لذلك. يتم تمييز الميزات النادرة 
وتمكين المتعلم من تحديد الميزات النادرة والتنبؤية العالية. 

في هذه الطريقة . يتم حساب معدل تعلم منفصل لكل معامل نموذج Fy‏ على التاریخ الكامل 
لمعامل الانحدار التربيعي للمعامل. يشبه الانحدار التربيعي أهمية الانحدار. يتم حسابها لكل 
معامل. ويتم حساب معدل التعلم الحالي بقسمة الانحدار الحالي على مربع الانحدار بالإضافة 
إلى قيمة صغيرة ل ع (لتجنب القسمة على الصفر). هذا يعني أنه كلما زادت التدرجات التي تم 
الحصول عليها مسبقا . قلت أهمية التدرج الحالي» وبالتالي قل معدل التعلم وبالتالي حجم 
الخطوة في الدورة التدريبية الحالية. المعادلة الرياضية لهذه الطريقة هي كما يلي: 


2 
70 +ع6 = Gt‏ 
خوارزمية Adagrad‏ في keras‏ 
یمکن استخدام محسن Keras $Adagrad‏ باستخدام مقتطف الكود التالي: 


from tensorflow.keras.optimizers import 0 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


adagrad = Adagrad(learning rate-0.0001, epsilon-le-6) 


model.compile(optimizer=adagrad, loss = ..., metrics- ...) 


AdaDelta 
جيدة؛ لکن الخوارزمية لھا بعض العيوب. بعد فترة» يصبح‎ Adagrad وراء خوارزمية‎ 3, Sal 
تراكم التدرجات المربعة كبيرًا جدا بحيث يكون معدل التعلم المستخدم‌ني التحديثات منخفض‎ 
معالجة هذه المشكلة‎ AdaDelta جد وبالتالي لا يمكن إحراز أي تقدم تقریبًا. تحاول خوارزمية‎ 
عن طريق تقييد نافذة الانحدار الماضي المكدسة إلى حجم ثابت بدلاً من أخذ التاريخ بالكامل.‎ 
للقيام بذلك. بدلاً من جمع کل الانحدارات المربعة من بداية التعلیمات. افترض أننا قمنا بتخزين‎ 
المجموع المتناقص لهذه التدرجات. يمكننا اعتبار هذا كقائمة مستمرة لأحدث التدرجات لكل‎ 
وزن.في كل مرة نقوم فيها بتحديث الأوزانء نضع التدرج الجدیدفی أسفل القائمة ونحذف الأقدم‎ 
من البداية. للعثور على القيمة التي نستخدمها لتقسيم الانحدار الجدید. نضيف جميع القيم‎ 
على موضعھانی القائمة. يتم ضرب القيم‎ Fly الموجودةفي القائمةء لکن أولاً نضربها جميعًاني رقم‎ 
الأحدث بمقدار کبین بینما یتم ضرب القيم الأقدم بمقدار صغير جدا. وبالتالي» يتم تحديد‎ 
JÍ إجمالي التنفيذ لدینا بقوة من خلال التدرجات الحديثة. على الرغم من تأثرها بدرجة‎ 
بالتدرجات القديمة. باختصار. من أجل التنفيذ الفعال بدلا من تخزين التدرجات السابقة‎ 

المقابلة يتم استخدام المتوسط المتناقص لجميع التدرجات المربعة السابقة. 

تغير هذه الخوارزمية بشكل تكيفي معدل تحديث الأوزان في كل خطوة باستخدام الوزن 
الإجمالي لكل خطوة. نظرًا Adadelta oY‏ يضبط مقدار تدريب الوزن بشكل فردي . فإن أي 
وزن يبقى على منحدر حاد لفترة من الوقت سوف يتباطأ ليبقى بعیدا عن الشكل « ولكن عندما 
يكون هذا الوزن في جانب أكثر سلاسة » يمكن أن يأخذ خطوات أكبر. 

بصرف النظر عن هذا . يقدم مؤلفو المقال طريقة للتخلص من الحاجة إلى معدلات التعلم 
من الخوارزمية. يشيرون إلى أن وحدات معدل التعلم ومتوسط الانحطاط لجميع التدرجات 
التربيعية السابقة غير متطابقة. إنهم يحلون هذه المشكلة عن طريق استبدال معدل التعلم بمتوسط 
تنازلي آخر من المعامل المربع بتحديث AO?‏ هذا مشابه لآهمية تغييرات المعاملات السابقة. 
بقسمة الجذر الثانی على الجذر التربیعی لأهمية التدرجات السابقة . نحصل على قيمة أكثر أو 
آقل نسبة آهمية ال انش السابقة RENE‏ لتحديث المعاملات . أو بعبارة أخرى تأثير 
التدرجات السابقة على القيمة الحالية للمعامل. رمزها الرياضي على النحو التالي: 


E(A02) +e 

04,17 0¢ - V0). == 
E(V2, +€ 

E(A02), = y. E(A9*),., + (1 — y) A6? 


E(V5, = Y.E (V? )t-1 + 0 — Y) Ve (0)? 


الفصل الثالت: الشبكات العصبية امامية التغذية 


keras في‎ Adadelta خوارزمية‎ 


یمکن استخدام محسن Keras (3Adadelta‏ باستخدام مقتطف الكود التالي: 
from tensorflow.keras.optimizers import Adadelta‏ 


adadelta= Adadelta(learning rate-0.0001, epsilon=1e-6) 
model .compileCoptimizer= adadelta, loss = ..., metrics- ...) 


RMSprop 

تسمی الخوارزمية التي تشبه إلى حد Adadelta be‏ ولكنها تستخدم رياضيات مختلفة OWE‏ 
.RMSprop‏ الاسم مشتق من حقيقة أنه يستخدم عملية جذر متوسط التربيع root mean-)‏ 
(squared‏ وغالبًا ما يتم اختصارهاك RMS‏ لتحديد المطابقة التي تمت إضافتها (أو نشرها) 
إلى التدرجات. رمزها الرياضى على النحو التالى: 


۷)0: 
0,,4 = 0, — .ي‎ 
Bros S EIE] des 
E(V^), = y. 5 )۷۹( و‎ Tibe (۷ (09)? 
keras في‎ RMSprop خوارزمية‎ 


:Keras 3RMSprop jz باستخدام مقتطف الکود التالي يمكنك استخدام‎ 
from tensorflow.keras.optimizers import RMSprop 


rms prop = RMSprop(learning rate-0.0001, epsilon=1e-6) 
model.compile(optimizer- rms prop, loss = ..., metrics- ...) 


Adam 


تشترك الخوارزميات السابقةفي فكرة تخزين قائمة من التدرجات المربعة من أي وزن. بعد ذلك 
من خلال إضافة القيمفي هذه ASW‏ قد يقومون بإنشاء عامل مقياس بعد قياسها. يتم تقسيم 
deos‏ كل خطوة من خطوات التحدیث على هذا المجموع. يعطي 0 نفس الوزن 
لجمیع العناصر الموجودةني القائمة عند انشاء عامل التحجیم ley‏ یعتبر Adadelta‏ 
RMSprop;‏ أن العناصر الأقدم غير مهمة وبالتالي یکون لها حصة أصغر من الاجمالي. 

يعد تربیع التدرج قبل وضعهفي القائمة مفیدا رياضيًاء ولکن عندما نربّع رقمّاء تکون النتيجة 
إيجابية دائمًا. هذا يعني آننا نفقد الاتجاه الايجابي أو السلبي لذلك التدرچنی قائمتناء وهي 
معلومات مفيدة. لذلك. لتجنب فقدان هذه المعلومات. یمکننا الاحتفاظ بقائمة ثانية من 
التدرجات دون تربیعها. یمکننا بعد ذلك استخدام LIS‏ القائمتین لاشتقاق معامل القیاس. هذا 
نهج حسابي يسمى تقدير اللحظة التكيفي «(adaptive moment estimation)‏ أو .Adam‏ 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


keras فى‎ Adam خوارزمية‎ 
:Keras Adam باستخدام مقتطف الکود التالي» يمكنك استخدام محسّن‎ 
from tensorflow.keras.optimizers import Adam 
adam= Adam(learning_rate=0.0001, beta_1=0.9, beta 2-0.999, epsilon-1e-6) 


model.compile(optimizer- adam, loss = ..., metrics- ...) 


Loss Function الخطأ‎ àJla 


في مرحلة تدريب الشبكة العصبية يتم استخدام النتيجة (score)‏ للإشارة إلى الحالة الحالية. بناء 
على هذه النتیجة يتم البحث عن معاملات الوزن المثلى. بمعنى آخر. تبحث الشبكة العصبية عن 
المعاملات المثلى باستخدام النقاط كدليل. يتم حساب هذه الدرجة من خلال دالة الخطأ (دالة 
الخسارة) Fly‏ على قياس مقدار الخطأ بين القيم المتوقعة والفعلية. توضح الصيغة البسيطة التالية 
دالة الخطأ كمعادلة: 

و - y‏ ع Loss‏ 
حيث آن y‏ و 7 هي القيم الفعلية والقيم المتوقعة ء على التوالي. 


انهالمیهٌیتم تقییم‌هابشل دوری أثناء التدريب وتعبرعن معدل تقدم التعلم. 


باستخدام دالة الخطأ ء یمکننا تقييم LAS‏ نمذجة الخوارزمية على مراجعة البيانات. يعتمد 
اختيار دالة الخطأ على نوع المشكلة وستختلف دالة الخطأ هذه باختلاف مشاكل التصنيف 
والانحدار. في مشكلة التصنيف . نعتزم توقع توزيع احتمالي لمجموعة الفتات. OW‏ في مشاكل 
الانحدار ¢ سنجد قيمة معينة. 


Jiga‏ الخطاً للانحدار 


كما ذکرنا سابقاء تتعامل نماذج الانحدار مع التنبؤ بقيمة مستمرق. مثل سعر السيارة والتنبؤ 
بالقرض وما إلى ذلك.في هذا القسم. يتم سرد دوال الخطأ للانحدار الا کثر استخدامّا. 


الفصل الثالت: الشبكات العصبية امامية التغذية 


Mean Square Error 


هي إحدى دوال الخطأ الأكثر شهرة في الانحدار » وتحسب متوسط الفرق التربيعي بين القيم 
الفعلية والمتوقعة بالمعادلة التالية: 


n 
1 
MSE(y,$) = Y 0 - ĵi)? 
i=1 


حيث 1 هو عدد العينات التعليمية. 
باستخدام مقتطف الکود التالي يمكن استخدام دالة MSE‏ في :Keras‏ 
from tensorflow import keras‏ 


loss fn = keras.losses.MeanSquaredError() 
model.compile(loss-loss fn, optimizer-..., metrics- ...) 


Mean Absolute Error 


تحسب هذه الدالة متوسط فرق القيمة المطلقة بين القيم الفعلية والمتوقعة بالمعادلة التالية: 


n 
1 
MAEQ, 3) ==) ly = او‎ 
i=1 


باستخدام مقتطف الكود التالي» يمكن استخدام دالة :Keras 3MAE‏ 
from tensorflow import keras‏ 


loss fn = keras.losses.MeanAbsoluteError() 
model.compile(loss-loss fn, optimizer-..., metrics- ...) 


Jiga‏ الخطاً للتصنیف 
في هذا القسم. يتم وصف دوال الخطأ المتعلقة بالتصنیف. 
Cross Entropy‏ 


تحسب هذه الدالة المسافة بين توزيعين احتماليين ويتم تعريفها على النحو التالي: 


1 n 
Cross Entropy(y,9) = -» yilog($) 
i=1 


باستخدام مقتطف الکود التالی» يمكن استخدام دالة الخطأ :Keras $Cross Entropy‏ 


from tensorflow import keras 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


loss fn = keras. losses.CategoricalCrossentropy() 


model.compile(loss=loss_fn, optimizer=..., metrics= ...) 
Binary Cross Entropy 
للمصنفات الثنائية» والتي يتم تعريفها على النحو‎ Binary Cross Entropy يتم استخدام‎ 


التالى: 
"NE. 5 a‏ ۱ 
Binary Cross Entropy (y, ĵ) = — “Yu log(9) + (1 — yi) (1 — log($)))‏ 
i-1‏ 


Binary Cross Entropy باستخدام مقتطف الكود التالی» يمكن استخدام دالة الخطاً‎ 
:Keras 
from tensorflow import keras 


loss fn = keras.losses.binary. crossentropy 
model.compile(loss-loss fn, optimizer=..., metrics- ...) 


الانتشار الخلفي Backpropagation‏ 

التعلمنی شبكة عصبية متعددة الطبقات يشبه بشكل عام تعلم بیرسیبترونء مع الأوزان 
المتطابقة. ومع ذلك. فان الطريقة التي يجب أن يتغير بها كل وزن تكون أكثر صعوبة بقلیل.في 
حالة بیرسیبترون. فإن الضرب الداخلي فقط بین بيانات الإدخال والأوزان هو المطلوب للحصول 
على ناتج العقدة. نظرًا لوجود طبقات متعددةنی MLP‏ » يتم تحديد ناتج العقدةفي الطبقة الأخيرة 
من خلال أخذ الضرب الداخلي للأوزان ومخرجات العقدفي الطبقة السابقة. يتم حساب كل من 
هذه القيم الحديثة بنفس الطريقة. هذا يعني أن الخطأفي إخراج الطبقة النهائية يمكن أن يكون 
بسبب أوزان الطبقة الأخيرة بالإضافة إلى أوزان الطبقة (الطبقات) السابقة. لذا فإن السؤال هو 
وزن أي طبقة سبب هذا الخطأ. يشار إلى هذه المشكلة أحيانًا باسم تخصيص الائتمان ( credit‏ 
(assignment‏ . الطريقة التي يمكن أن تحل هذه المشكلة تسمى الانتشار الخلفي. 

ربما تكون خوارزمية الانتشار الخلفي هي اللبنة الاساسيقني الشبكة العصبية. يعد الانتشار 
الخلفيني الأساس طريقة ذكية لحساب التدرجات بشكل فعالفي الشبكات العصبية متعددة 
الطبقات. تستخدم هذه الخوارزمية قاعدة حساب التفاضل والتكامل وتحسب تدرج الخطأفي 
مسارات مختلفة من عقدة واحدة إلى المخرجات وتتكون من مرحلتين رئيسيتين تسمى مرحلة 
الانتشار الامامي ومرحلة الانتشار الخلفي.في هذه الخوارزميةء بعد كل تمريرة للأمامنی الشبکت 
تقوم مرحلة الانتشار الخلفي بإجراء تمريرة عكسية وفي نفس الوقت تعدل معاملات النموذج 
(الأوزان والتحيزات). 
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باختصار» على مستوى عال جداء Fly‏ على ما قيل حتى الان. تكرر الشبكة العصبية هذه 
الخطوات وتنفذها عدة مرات أثناء التدريب. (الشكل 4-3): 
* مرحلة الانتشار الامامی لتوليد المخرجات Fy‏ على المعاملات الحالية وبيانات 
الإدخال. ١‏ 
a‏ مرعلا ساب دالة الخطا للفرق بين المسخرجات الحالية والهدف. 
" مرحلة الانتشار الخلفی لحساب الانحدار للخطأ بالنسبة للمعاملات. 
* مرحلة تحسین التدرجات لتحديث المعاملات لتقلیل الخسائر للتکرار التالي. 


الطبقة المخقية 2 الطبقة المخقية 1 


9 تحديث التنشيط 
مرحلة الاتتشار الخلقي 


الشکل 4-3. عملية تدریب الشبكة العصبية 


تھیئة الأوزان للمعاملات 

عنصر مهم جدافي تصميم الشبكات العصبية هو تهيئة الأوزان.في الشبكات العصبية» يجب 
اختيار القياس الكمي الأولي للأوزان بعناية فائقة. على سبيل المثال. إذا كان للعديد من الخلايا 
العصبيةفي طبقة 2 a‏ الأوزان. فسوف تتلقى نفس التدرجات. نتيجة لذلك. يتم تحسين 
جمیع الخلایا العصبية بنفس الطريقة عند تصحیح التدرج. بمعنی آخره يتم حساب نفس النتائج 
لكل منهم. مما يؤدي إلى إهدار سعة النموذج. وبالتالي. فإن الشبكة المكافئة لسلسلة من الطبقات 
هي أحادية العصبونات. 

إذا عرفنا التكوين النهائي (أو حتى تقریبًا)ء فيمكننا تعديلها للوصول بسهولة إلى النقطة المثلى 
في عدد قليل من التكرارات. لکن للأسف. لا نعرف أين هو نقطة المحلي الامثل. ومن ثم تم 
تطوير واختبار استراتيجيات تجريبية بهدف تقليل وقت التدريب. من الناحية المثالية. يجب أن 
تظل تباینات التنشيط ثابتةفي جميع أنحاء الشبكة تقریبًا بالإضافة إلى تباينات الوزن بعد كل خطوة 
الانتشار الخلفي. هذان الشرطان ضروريان لتحسين عملية التقارب ولمنع مشاكل تلاشي التدرج 
والانفجار. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


dale‏ يتم تهيئة أوزان الشبكة العصبية باستخدام توزيع غاوسي بمتوسط صفر وانحراف 
معياري صغير. ومع ذلك. فإن المشكلة تکمن‌في أن توزيع ناتج خلية عصبية تمت تهيئتها عشواتيًا 
له تباین يزيد مع عدد المدخلات. لتنعيم تباین الاخراج لكل خلية عصبية إلى 1+ يكفي استخدام 
التوزيع الطبيعي القياسي وقياس الوزن بناء على الجذر التربيعي لسعة الادخال Thin,‏ وهو عدد 
المدخلات: 

N )0,1( 
Nin 

تسمى هذه الطريقة مقياس التباين (variance scaling)‏ ويمكن تطبيقها بالإضافة إلى عدد 
وحدات الادخال els. (Fan-In)‏ على عدد وحدات الإخراج (Fan-Out)‏ أو متوسطها. هذه 
الفكرة بديهية للغاية ‏ إذا كان عدد وصلات الإدخال أو الإخراج کبیرا . فيجب أن تكون الأوزان 
أصغر لتجنب المخرجات الكبيرة. 

يمكن استخدام variance scaling‏ باستخدام مقتطف التعليمات البرمجية التاليفي :Keras‏ 


Wo 


from keras import initializers 
initializer = initializers.VarianceScaling(scale-1.0, mode='fan_in', 
distribution='normal') 


حلل Gloret‏ و Benjio‏ الانحدارات بعد الانتشار وأوصيا Hel‏ (المعروفة باسم تهيئة 


:(Xavier 


2 
rw‏ سنن 
حيث يصف Nout‏ عدد وحدات الإخراج. هذا نوع أقوى من الطريقة السابقة . لأنه يأخذ في 
الاعتبار كل من اتصالات الإدخال والإخراج (والتي بدورها هي اتصالات الإدخال). الهدف هو 
محاولة تلبية المطلبين المقدمين سابقا. لقد ثبت أن تهيئة Xavier‏ فعالة للغاية فى العديد من 
البنى العميقة وغالبًا ما تكون الخيار الافتراضي. l‏ 
يمكن استخدام Keras ¿Xavier‏ باستخدام مقتطف الشفرة البرمجية التالي: 


from keras import 65 
initializer = initializers.GlorotNormal () 
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كل هذه الطرق مشتركة بينهم ويمكن تبادلها فى كثير من المواقف. كما ذكرنا سابقاء 
فان Xavier's‏ آحد أقوی المضیفین فى &Lo-3‏ الجوانب لدیه Gla‏ جيدة. ومع ذلک. بمکن 
has‏ التحقق من Aan‏ مجموعه البیانات الفعلية لتأكيد ذلک. 


المعاملات 


في أي شبكة عصبية عمیقة هناك نوعان مختلفان من المعاملات: آحدهما هو معامل النموذج 
والاخر هو المعامل الفائق .(hyper parameter)‏ معاملات النموذج هي تلك المعاملات التي 
يتم اکتشافها GE‏ بواسطة النموذج من بیانات التدریب.في المقابل المعاملات الفائقة هي 
المعاملات یمکن تعدیلها لتحقیق أفضل آداء للنموذج. بمعنی آخر لا يتم تعلم هذه المعاملات 
آثناء التدریب. ولکن يتم تعيينها من قبل المستخدم‌في بداية عملية التعلم. تؤثر المعاملات الفائقة 
على عملية التعلم بأكملهاني الشبكة العصبية. تتضمن بعض المعاملات الفائقة عدد الطبقات 
المخفية التي تحدد بنية الشبكة. معدل التعلم هو معامل فائق آخر یساعد على فهم LAS‏ تدریس 
الشبکات. يلعب اختیار المعامل الفائق الامثل دورًا مهمّافي عملية تدریب الشبكة با کملها. 


تعد المعاملات الفائقة وسیطات نموذحیهیتم تعيين قیمهاقبل uy‏ عملیه التعلم. 


و ات 
الغرض الرئيسي من بناء نموذج التعلم العمیق هو تعلم وظيفة أو مهمة (task)‏ لتحقیق هذا 
الهدف. نقوم بتغذية شبكة بیانات التدریب. بعد تدریب شبكة عصبية بالانحدار الاشتقاقي 
والانتشار الخلفي. نفترض أن هذا الأداء الجید یظل على بیانات غير مرئية (أي البیانات التي لم 
يتم تضمينها آثناء التدريب). ومع ذلك. هذا لا يعني بالضرورة أن النموذج قادر على التنبؤ بدقة 
بإخراج البيانات غير المرئية. لذلك. يتم تقديم مجموعتين إضافيتين من البيانات للتحسينء 
مجموعة التحقق من الصحة والمجموعة التجريبية. كل مجموعات البيانات الثلاث مستقلة عن 
بعضها البعض. لذلك لا توجد OVE‏ مشتركة بينها. 

تستخدم مجموعات التحقق من الصحة في الشبكات العصبية بشکل شائع لضبط المعاملات 
للنموذج مثل بنية الشبكة أو معدلات التعلم. تستخدم مجموعة الاختبار فقط للتقييم النهائي من 
أجل تقییم أداء الشبكة في البيانات غير المرثية. إذا لم تكن الشبكة العصبية معممة بشکل جيد 
(القدرة على نقل المعرفة إلى البيانات غير المرئية) . أي أن فقدان التدريب أقل من فقدان 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


الاختبار. وهذا ما یسمی الضبط الزائد -overfitting‏ يطلق على السيناريو العكسي 6 عندما تكون 
خطاً الاختبار أقل بكثير من خطأ التدريب . الضبط الناقص .underfitting‏ (الشكل 5-3). 
1 


0.8 


a 6 
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الشکل 5-3. سلوك التعمیم في منحنی التعلم وفق معیار الدقة في البیانات التدريبية والاختبارية 


الضبط الزائد overfitting‏ هو ظاهرة توثر في النهاية على جمیع الشبکات العصبية. هذا 
یرجم إلى حقيقة آنهم یتعلمون فقط من مجموعات البیانات التدريبية: مجموعة فرعية من جمیع 
البیانات الممکنة. يحدد مدی جودة آدائهم في هذه المجموعة الفرعية مقدار المكافأة أو المعاقبة 
على آوزانهم. بمعنی ST‏ حتی لو كان هدفنا هو المعرفة المعممة . فإن الشبکات نفسها مصممة 
لتحقیق دقة عالية فی مجموعات بیانات محددة. بهذه الطريقة ء سیبدآون فی النهاية فى الحفاظ 
علی مجموعة الات الخاصة بهم . بالنظر إلى قدرتهم على القيام بذلك. -- هذا الحفظ إلى 
زيادة التحميل على الشبكة. تتذكر الشبكة التی بدأت فی التجاوز المیزات الفريدة والتفاصيل 
المحددة للبيانات الموجودة حصريًا في d cu‏ باکت التدريب وتخلط بينها كمفاهيم عامة 
مشتركة بين جميع مدخلات البيانات المماثلة. لذلك e‏ ستواجه مثل هذه الشبكة وقتا أكثر صعوبة 
فی تحليل المدخلات الجديدة وغير المألوفة (مجموعات البيانات التجريبية). وذلك OY‏ بعض 
السمات المميزة التي تم تحديدها مسبقاً غير موجودة في البيانات الجديدة. بالإضافة إلى ذلك ‏ 
مع زيادة دقة الشبكة آثناء التدریب. تزداد الفجوة بين الخطأ الناتج أثناء التدریب والخطأ الناتج 
آثناء الاختبار. ومع ذلك ۰ في بعض الاحیان یکون استخدام نموذج معقد أمرًا لا مفر منه عند 
محاولة حل المهام المعقدة للغاية. تسمح إضافة المزید من الطبقات أو الخلایا العصبية بمستوی 
آعلی من استخراج المیزات » مما قد يؤدي إلى مستوی أعلى من الدقة إلى نقطة معينة. 

ile‏ ما » overfitting l3‏ و underfitting‏ في الشبکات العصبية العميقة ارتباطًا مباشرا 
بقدرة النموذج. ببساطة 6 ترتبط سعة النموذج لشبكة imas‏ عميقة ارتباطًا مباشرًا بعدد 
المعاملات داخل الشبكة. تحدد سعة النموذج مدى قدرة الشبكة العميقة على ملاءمة مجموعة 
واسعة من الوظائف. إذا كانت السعة منخفضة جدا . فقد لا تتمكن الشبكة من تكييف مجموعة 
التدريب (أقل من اللازم) ۰ بينما قد تؤدي سعة النموذج الكبيرة جدا إلى الاحتفاظ بعينات 
التدريب (زيادة العرض). عادة لا يمثل عدم الملائمة مشكلة بالنسبة للشبكات العصبية العميقة. 


الفصل الثالت: الشبكات العصبية امامية التغذية 


هذا OY‏ يمكن حل هذه المشكلة باستخدام بنية شبكة أقوى أو أعمق مع المزيد من المعاملات. 
ومع ذلك » من أجل التمكن من استخدام الشبكات العميقة للبيانات الجديدة وغير المرثية » 
يجب التحكم في -overfitting‏ تسمى ike‏ تقليل تأثير overfitting‏ أو ace‏ 
بالتنظيم (regularization)‏ . التنظيم هو وسيلة للتحكم في overfitting‏ « أو بالأحر ى لتحسين 
خطأ التعميم. 

لا ينبغي التغاضي عن ملاءمة البيانات التعليمية. OY‏ النجاح في التعميم أو حتى الملاءمة 
الكافية في البيانات التعليمية يعتمد عليها. خلاف ذلك . قد یمیل النموذج إلى التكيف بشكل 
مفرط مع الميزات المحددة لبيانات التدريب. يعتمد هذا ء من ناحية ء على كمية البيانات المتاحة 
للتدريب » حيث قد لا تكون مجموعة التدریب الصغيرة كافية لتحدید الأنماط والهياكل العامة « 
ومن ناحية أخرى . على جودة بيانات التدريب ؛ خاصة عندما يتعلق الأمر بالتعلم من خلال مراقبة 
صحة علامات الهدف التي تم تعيينها بالفعل من قبل البشر أو حتى الخبراء البشريين. بالإضافة 
إلى ذلك . من الضروري التأكد من أن توزيع وخصائص بیانات التدريب متوافقة مع بيانات 
الاختبار أو أنها متوافقة بشكل عام مع البيانات التي تم التخطيط للنموذج الذي تم تعلمه 
لاستخدامه في المستقيل. 
التوقف المبكر (Early stopping)‏ 

في تدريب النموذج SU‏ عادة ما ينخفض خطأ التدريب والتحقق من الصحة بمرور الوقت؛ 
ولکنفی مرحلة ماء يبدأ خطأ التحقق من الصحةفي الزيادة.في هذه المرحلةء يبدأ النموذجفي 
5 ومعرفة الميزات المحددة لمجموعة التدريب. يتم استخدام طریقة التوقف المبكر 
للتوقف عند هذه المرحلة. تقوم هذه الطريقة بإرجاع النموذج بأقل خطأ تحقق من الصحة. 
لذلك. يتطلب التدريب مجموعة من عمليات التحقق من الصحة لتقييم أخطاء التحقق بشكل 
دوري. 

في هذه الطريقة. لا يتوقف التدريب بعد الزيادة الأولىفي خطأ التحقق من الصحة. وبدلاً من 
ذلك. تتلقى الشبكة a ja‏ من التدريب حتى تصل إلى عتبة "عدد الدورات دون تقدم". بعد ذلك 
من خلال تقييم الدورات اللاحقة. نتلقى عملية التحقق من الخطأ لمزيد من التدريب. على سبيل 
المثالء إذا لم يتحسن خطأ التحقق من الصحة 10 مرات متتالية على أفضل خطأ تحقق من 
الصحة. يتم إيقاف التدريب ويتم إرجاع النموذج الذي يحتوي على أفضل a‏ التحقق من 
الصحة. 
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دوره 
الشكل 6-3. التوقف المبكر 


يراقب التوقف المبكر أداء النموذج فى كل دورة بناء على مجموعة التحقق ويعتبر نهاية 
التدريب مشروطه cla‏ التحقق. 
الحذف العشوائي (Dropout)‏ 
الحذف العشوائی هو طريقة تنظيمية للشبکات العصبية. الفکرة الأساسية هی إزالة الخلایا العصبية 
بشکل عشوائي عند كل تکرار. إذا تم حذف خلية عصبية» فان جمیع التدرجات التابعة تکون 
صفرية وبالتالي لا يتم عرض الوزن المقابل. إن عملية Las‏ هذه الطريقة هي أنهي كل فترة تکرار 
للتدریب. تظل کل خلية عصبية مع احتمال p‏ ۰ ومع احتمال p)‏ - 1)ستتم [زالتها من الشبكة. 
سيؤدي هذا إلى عدم التعرف على جمیع الميزاتفي کل فترة» وسیتم استخدام خصائص مختلفة 
للتصنيففي كل مرة يتم فيها |دخال البیانات. یوضح الشکل 4-3 شبكة عصبية نموذجية وشبكة 
عصبية مع حذف عشوائي. 


الشکل 6-3. شبكة عصبية (D‏ قبل الحذف العشوائي و (ب) بعد الحذف العشوائي 


التفسیر الا کثر شیوعا لتأثير الحذف العشوائي هو أنه يعلم ضمنيًا مجموعة (ensemble)‏ من 
النماذج. OY‏ کل تکرار ينتج نسخة مختلفة من النموذج ویتم تحدیث کل وزن بمجموعة من 
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الأوزان الأخرى. يعد التعلم الجماعي للعديد من النماذج أسلوبًا USUS‏ التعلم الالي لتقليل خطأ 
التعميم بفكرة أن التنبؤ غير الصحيح لنموذج واحد يمكن تعويضه بواسطة نماذج أخرى. 

من ناحية آخرى» يمكن تفسير الحذف العشوائي على أنه يتم إجبار الشبكة العصبية على 
المبالغةفي تمثيل المعرفة المكتسبة من خلال التعلم. نظرًا OY‏ بعض المعرفة حول فتات أو 
مدخلات معينة ليست متاحة بالضرورةفي بعض التکرارات: فإن المعرفة المشفرةفي هذه الخلايا 
العصبية لهذه المدخلات يتم إزالتها الآن. وبالتالي» من الصعب على الشبكة العصبية أن تملا 
عينات تدريب محددة OY‏ بعض الخلايا العصبية ليست متاحة دائمًا. 


يمكن الوصول إلى الحذف التصادفي باستخدام مقتطف الشفرة التاليفي :Keras‏ 


from keras.layers import Dropout 
from keras.models import Sequential 


model = Sequential () 
model. add(Dropout(0.5)) 
(Batch Normalization) التسوية الجماعية‎ 


يؤدي تدريب الشبكة إلى تغيير آوزان کل طبقة. يتسبب هذا التغييرفي تغییر توزيع (distribution)‏ 
المدخلات أثناء ترقية الطبقات ALS!‏ ويسمى هذا التأثير إزاحة المتغير الداخلي ( internal‏ 
(covariate shift‏ . تنشأ هذه المشكلة OY‏ المعاملات تتغير باستمرار أثناء عملية التدریب. والتى 
بدورها تغیر قيم دوال التنشيط. يؤدي تغییر قيم الإدخال من الطبقات الأولية إلى الطبقات التالية 
إلى تقارب أبطأ أثناء عملية التدریب. OY‏ بيانات التدريب للطبقات اللاحقة غير مستقرة. بمعنی 
آخره الشبكات العميقة هي مزيج من عدة طبقات ذات وظائف مختلفة وكل طبقة لا تتعلم فقط 
كيفية تعلم التمثیل العام من بداية التدریب. ولکن عليها أيضًا أن تتقن التغییرات المستمرةفي 
توزیعات المدخلات وفقّا لما سبق. طبقات. بینما یقوم المحسٌن بتحدیث المعاملات على 
افتراض آنها لا تتغيرفي الطبقات الأخرى ویقوم بتحدیث کل الطبقات‌ي نفس الوقت. سيودي 
هذا إلى نتائج غير مرغوب فیها عند الجمع بين دوال مختلفة. من أجل التعامل مع التغييرفي 
التوزيع أثناء التعلم تم تقدیم التسوية الجماعية S(Batch Normalization)‏ هذه الطريقةء يتم 
إجراء التسوية على بيانات الإدخال أحادية الطبقة بحيث يكون لها متوسط صفر وانحراف معياري 
بواحد. من خلال وضع التسوية الجماعية بين الطبقات المخفية وإنشاء خاصية تباین مشتركة e‏ 
نقوم بتقليل التغييرات الداخلية لطبقات الشبكة. 


من خلال تطبیق التسویه الجماعية. Jaco oalyj yAoy‏ التعلم. وهذا )536 إلى تعلم 


آسرع. بالإضافة إلى «JA‏ تتزاید dal‏ مقارنة بنفس الشبکه دون التسوية الجماعية. 


یمکن استخدام التسوية الجماعية باستخدام مقتطف الشفرة التالي نی :Keras‏ 


from keras.layers import BatchNormalization 
from keras.models import Sequential 
model = Sequential () 


model .add(BatchNormalization()) 


تنفيذ الشبكة العصبية في keras‏ 
في هذا القسم. سوف نتعلم LAS‏ تنفيذ شبكة عصبية امامية التغذیةنی Keras‏ في المثال الأولء 
قمنا ببناء شبكة عصبية للتنبؤ ہما إذاكانت أسعار المنازل أعلى أو أقل من المتوسط. 
مجموعة البيانات التي سنستخدمها مقتبسة من بيانات مسابقة ' geo Kaggle‏ بقيمة منزل 
Zillow‏ لقد WWE‏ عدد ميزات الادخال وغيرنا العمل للتنبؤ Ob‏ سعر المنزل سيكون أعلى أو 
أقل من المتوسط. استخدم الرابط الموجودفی الحاشية السفلیة" لتنزيل مجموعة البيانات المعدلة. 
قبل البرمجة لبناء أي نموذج للتعلم IM‏ فإن أول شيء يتعين علينا القيام به هو وضع بياناتنا 
في تنسيق مناسب للخوارزمية.في هذا المثال» نقوم بما يلي: 
* نقرأ أولاً ملفات CSV‏ ونحولھا إلى مصفوفات. المصفوفات هي تنسيقات بيانات 
يمكن للخوارزمية معالجتها. 
" نقسم مجموعة البيانات الخاصة بنا إلى خصائص إدخال تسمى X‏ وتسمية (اخراج) 
تسمى Y‏ 
t‏ نقوم بتسوية البيانات. 
t‏ نقسم مجموعة البيانات إلى مجموعة تدریب ومجموعة التحقق ومجموعة الاختبار. 
هيا بنا Nas‏ أدخل أولاً مكتبة pandas‏ واکتب الكود التالي فی خلية notebook‏ واضغط على Alt‏ 
Enter‏ +: 
import pandas as pd‏ 
هذا يعني فقط أنني إذا أردت الإشارة إلى الكود الموجودني حزمة pandas"‏ ”ء فسأشير إليه على 
أنه 4م. ثم نقرأ ملف CSV‏ الخاص بنا عن طريق تنفيذ الكود التالي: 
df = pd.read_csv('housepricedata.csv')‏ 
يعني هذا السطر من التعليمات البرمجية Ul‏ نقرأ ملف ‘housepricedata.csv'‏ ونحفظففي متغير 
df‏ إذاكنت تريد معرفة ما هو موجودنی df‏ ۰ فما عليك AUS (s‏ ]1 في خلية notebook‏ واضغط 
على Alt + Enter‏ : 


df 


1 https://www.kaggle.com/c/zillow-prize-1/data 
2 https://drive.google.com/file/d/1h6LPHNs4F_FnxwfdE_fCIsGeEh30tDBf/view ?usp=sharing 
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يجب أن تبدو مخرجاتك مثل هذا: 


LotArea OverallQual OverallCond TotalBsmtSF FullBath HalfBath BedroomAbvGr TotRmsAbvGrd Fireplaces GarageArea AboveMedianPrice 

0 8450 7 5 856 2 1 3 8 0 548 1 

1 9600 6 8 1262 2 3 6 1 460 1 

2 11250 7 5 920 2 1 3 6 1 608 1 

3 9550 4 5 756 1 0 3 7 1 642 0 
4 14260 8 5 1145 2 1 4 9 1 536 1 
1455 7917 6 5 953 2 1 3 7 1 460 1 
1456 13175 6 6 1542 2 0 3 7 2 500 1 
1457 9042 2 9 1152 2 0 4 9 2 252 1 
1458 9717 5 6 1078 1 0 2 5 0 240 0 
1459 9937 5 6 1256 1 1 3 6 0 276 0 


خصائص الادخال لدینا موجودةفي الأعمدة العشرة الأولى.في العمود الأخير لدینا الميزة (التسمیة) 
التي نرید توقعها: هل سعر المنزل أعلى من المتوسط SY el‏ (1 ل "نعم" و C" "O"‏ الآن بعد 
أن رأينا شكل البیانات نرید تحویلها إلى مصفوفات حتی یقوم الجهاز بمعالجتها: 

dataset = df.values 
.إل )في‎ values e) فقط‎ df لتحویل إطار البيانات الخاص بنا إلى مصفوفت نقوم بتخزين قيم‎ 
dataset ما عليك سوى كتابة‎ “dataset” zx لمعرفة ما يوجد داخل‎ . dataset متغير‎ 
(Alt + Enter) وتشغيل الخلية‎ notebook خلية‎ 


dataset 
كما تری. يتم تخزينها جميعافي مصفوفة الان:‎ 

array([[ 8450, 7, 5. ہے‎ 0, 548, 1], 

[ 9600, 6, By ances 1, 460, 

[11250, T, 5, و‎ 1, 608, 

[ 9042, 7, 9, ..., 2, 252, 1], 

[ 9717, 5, 6, ..., 0, 240, 01, 

)011 ,276 ,0 میتی ,6 ,5 ,9937 [ 


نقسم الآن مجموعة البيانات الخاصة بنا إلى سمات الإدخال OX)‏ والسمة التي نريد توقعها CY)‏ 
للقيام بهذا القسمة. نقوم ببساطة بتعيين الأعمدة العشرة الأولى من المصفوفة إلى متغير يسمى 
X‏ والعمود الأخير من المصفوفة إلى متغير يسمى Y‏ كود القيام بالمهمة الأولى كما يلي: 
X = dataset[:, 0:10]‏ 

قد يبدو هذا غريباً بعض الشيء لکن اسمحوا لي أن آشرح ما بالداخل. كل شيء قبل الفواصل 
() يشير إلى صفوف المصفوفة وكل شيء بعد الفواصل يشير إلى أعمدة المصفوفة. نظرًا WY‏ 
لا نفصل الصفوف. WB‏ نضع ":" قبل الفاصلة. هذا يعني أخذ جميع صفوف مجموعة البيانات 
ووضعهاني X‏ نرید استخراج الأعمدة العشرة الأولی. لذلك يعني "0:10" بعد الفاصلة أخذ 
الأعمدة من 0 إلى 9 ووضعهاني × (لم يتم تضمین العمود 10). تبدأ الاعمدة من الفهرس 0ء 
لذا فإن الاعمدة العشرة الأولى هي أعمدة من 0 إلى 9. 
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ثم نقوم بتعيين العمود الأخير من مصفوفتنا إلى لا.: 
Y = dataset[:,10]‏ 
لقد قسمنا GYI‏ مجموعة البيانات الخاصة بنا إلى خصائص الإدخال CX)‏ والعلامات: أي ما نريد 
توقعه CY)‏ الخطوة التاليةفي المعالجة هي التأكد من أن مقياس خصائص الإدخال هو نفسه. 
IE‏ المیزات مثل مساحة الأرضية بالآلاف. وتتراوح BUS‏ الجودة الإجمالية من 1 إلى 10ء 
وعدد المواقد هو 0 أو 1 أو 2. هذا يجعل من الصعب بدء الشبكة العصبيةفي وقت مبكرء مما 
يسبب بعض المشاكل العملية. تتمثل إحدى طرق قياس البياناتفي استخدام حزمة scikit-‏ 
.Learn‏ ندخله أولا: 
from sklearn import preprocessing‏ 
يقول الكود أعلاه أنني أريد استخدام كود المعالجة المسبقةفي حزمة sklearn‏ بعد ذلك نستخدم 
دالة تسمى مقياس min-max‏ الذي يقيس مجموعة البيانات بحيث تكون جميع خصائص 
الإدخال بين 0 و1.: 


min max scaler = preprocessing.MinMaxScaler() 
X scale = min max scaler.fit transform(X) 


لاحظ آننا اخترنا 0 و1 للمساعدةني تدريب شبكتنا العصبية. يتم الآن تخزين مجموعة البيانات 
المقاسة Qu‏ مصفوفة .X_scale‏ إذاكنت تريد أن تری كيف يبدو e Xscale‏ فما عليك سوى 
تشغيل الخلية التالية: 


X_scale 
میں کے ۰ ع‎ 
سترى الإخراج التالي:‎ cone] بعد تنميك الكود‎ 
array([[0.0334198 , 0.66666667, 5 js, 0.5 , 0. 
0.3864598 ], 
[0.03879502, 0.55555556, 0.875 , «++, 0.33333333, 0.33333333, 
0.32440056], 
[0.04650728, 0.66666667, 0.5 , ..., 0.33333333, 0.33333333, 
0.42877292], 
[0.03618687, 0.66666667, 1. , ..., 0.58333333, 0۰66666667, 
0.17771509], 
[0.03934189, 0.44444444, 0.625 ×× مہ‎ 0.25 , 0. 
0.16925247], 
[0.04037019, 0.44444444, 0.625 و‎ «++, 0.33333333, 0. 
0.19464034]]) 


الآنء وصلنا الى المرحلة الأخيرةفي معالجة البيانات» وهي تقسيم مجموعة البيانات إلى مجموعة 
التدریب ومجموعة التحقق ومجموعة الاختبار. لهذا سنستخدم الكود scikit-Learn‏ المسمى 
"train test split‏ والذي كما يوحي اسمه یقسم مجموعة البیانات الخاصة بنا إلى مجموعة 
تدریب ومجموعة تجريبية. آولا نقوم بادخال الکود الذي نحتاجه: 


from sklearn.model_selection import train_test_split 


ثم نقسم مجموعة البيانات الخاصة بنا على النحو التالي: 
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X_train, X_val_and_test, Y_train, Y_val_and_test = 
train_test_split(X_scale, Y, test_size=0.3) 


يخبر مقتطف الكود أعلاه scikit-Learn‏ أن حجم 55S val and test‏ 7.30 من إجمالي 
مجموعة البيانات. يخزن الكود البيانات المقسمةفي أول أربع متغيرات على يسار علامة التساوي. 
لسوء الحظء تساعدنا هذه الدالة فقطنی تقسيم مجموعة البيانات الخاصة بنا إلى جزأين. نظرًا 
لأننا نريد مجموعة تحقق منفصلة ومجموعة اختبار. یمکننا استخدام نفس الدالة لإعادة التوزيع 
في :val. and. test‏ 


X_val, X_test, Y_val, Y_test = train_test_split(X_val_and_test, 
Y_val_and_test, test_size=0.5) 


الكود أعلاه يقسم حجم val_and_test‏ بالتساوینی مجموعة التحقق ومجموعة الاختبار. 
باختصار, لدينا الآن إجمالى ست متغيرات لمجموعة البيانات التى سنستخدمها: 

X_train ® 

X_val ® 

X_test " 

Y train ® 

Y val ® 

Y test "‏ 
إذا كنت تريد أن ترى كيف تبدو المصفوفات لكل منها (أي ما هي أبعادها)؛ ما عليك سوى 
تشغيل الكود التالى: 


print(X_train.shape, X_val.shape, X_test.shape, Y_train.shape, 
Y val.shape, Y_test. shape) 


),219( ),219( ),1022( )10 ,219( )10 ,219( )10 ,1022( 
كما تری. تحتوي مجموعة التدريب على 1022 نقطة بیانات. بینما تحتوي كل مجموعة من 
مجموعات التحقق والاختبار على 219 نقطة بيانات. تحتوي المتغيرات X‏ على 10 خصائص 
إدخال» بينما تحتوي المتغيرات Y‏ على خاصية تنب واحدة فقط. 
حان الوقت OV‏ لبناء وتدريب شبكتنا العصبية الأولى. أول شيء يتعين علينا القيام به هو 
تكوين البُنية. لنفترض آننا نرید شبكة عصبية ذات بُنية على النحو التالي: 
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aay 


O 0 
/ A 


$ 
aat 


طبقة المخرجات الطبقة المخقية 2 الطبقة المخقية 2 طبقة المدخلات 
)1 عصیون) (32 عصیون) )5544932( ۰ (10 عصیون) 


بعبارة آخری» نريد هذه الطبقات: 


* الطبقة المخفية 32:1 خلية عصبية مع دالة التنشيط ReLU‏ 

ReLU الطبقة المخفية 32:2 خلية عصبية مع دالة التتشیط‎ m 

51511010 طيقة المخرجات: 1 خلية عصبية مع دالة التتشیط‎ n= 
مما يعني‎ (Sequential) الآن علينا وصف هذه الهيكليةفي کیراس. سنستخدم النموذج المتسلسل‎ 
ندخل الكود المطلوب من‎ bes E نحتاج فقط إلى وصف الطبقات العليا بالترتيب.‎ tl 
:Keras 


from keras.models import Sequential 
from keras.layers import Dense 


بعد US‏ نحدد أن نموذجنا المتسلسل على النحو التالى: 
model = Sequential([‏ 
Dense(32, activation='relu', input shape-(10,)),‏ 
Dense(32, activation-'relu'),‏ 
Dense(1, activation='sigmoid'),‏ 
D‏ 
Gus‏ مثل الشكل السابق الذي رسمنا هیکله. يحدد مقتطف الکود آعلاه نفس الهيكلية. يمكن 
تفسير مقتطف الكود أعلاه على النحو التالي: 


model = Sequential ([...])‏ 
يوضح هذا الرمز أننا نقوم بتخزین نموذجنافي متغير النموذج ووصفه بالتسلسل (طبقة تلو طبقة) 
بين الأقواس. 


Dense(32, activation-'relu', input shape-(10,)) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


فى الطبقة الأولی. لدينا طبقة متصلة بالكامل بها 32 US‏ عصبية. ودالة التنشیط ReLU‏ وشکل 
الإدخال 10ء oY‏ لدینا 10 خصائص إدخال. لاحظ أن كلمة Dense"‏ " تشير إلى طبقة متصلة 
بالكامل. 
Dense(32, activation='relu'),‏ 
الطبقة الثانية لدينا هى Cal‏ طبقة متصلة بالكامل بها 32 LE‏ عصبية ودالة التنشيط ReLU‏ 
لاحظ أنه لا يتعين علينا وصف شكل الإدخالء حيث يمكن ل Keras‏ استنتاج ذلك من اخراج 
الطبقة الأولى. 
Dense(1, activation='sigmoid'),‏ 
الطبقة الثالثة. أو طبقة الاخراج» هی طبقة متصلة بالكامل بها خلية عصبية واحدة ودالة التنشیط 
14 كما ترون. تمکنا من برمجة هيكل النموذج الخاصة بنا. 
الآن بعد أن حددنا المعماریق نحتاج إلى إيجاد أفضل المعاملات لها. قبل بدء البرنامج 
* الخوارزمية التى تريد استخدامها لأداء التحسين. 
= دالة الخطأ المستخدمة. 
= المقاييس الأخرى التي تريد تتبعھا بصرف النظر عن دالة الخطأ. 
لتكوين النموذج بهذه الاعدادات. نحتاج إلى استدعاء وظيفة model.compile‏ ء على النحو 
التالى: 
model.compile(optimizer='sgd',‏ 
loss='binary_crossentropy',‏ 
metrics=['accuracy'])‏ 
ضع الإعدادات التالية بین قوسين بعد :model. compile‏ 
optimizer='sgd',‏ 
يشير '580 إلى الانحدار التصادفى العشوائى (يشير هنا إلى الانحدار التصادفى الصغير). 
loss='binary_crossentropy',‏ 
بالنسبة للمخرجات التي BE‏ قيم 1 أو 0. يتم استخدام دالة الخطاً 
.'binary_crossentropy'‏ 
metrics=['accuracy' ]‏ 
أخيرًاء نريد تتبع الدقة Oe‏ إلى جنب مع دالة الخطأ. الآن عندما نقوم بتشغيل هذه الخلیة نحن 
جاهزون للتدريب! 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


hist = model.fit(X_train, Y_train, 
batch_size=32, epochs=100, 
validation_data=(X_val, Y_val)) 


للقيام بذلك. نستخدم دالة 86" التي تلائم المعاملاتفي البيانات. نحتاج إلى تحديد البيانات 
التي نتدرب عليها والتي حددتها .Y trains X train‏ بعد ذلك» نحدد حجم المجموعة 
الفرعية (بواسطة المعامل (batch_size‏ وطول الفترة الزمنية التي نريد تدریبھا -Cepochs)‏ 
أخيراء نحدد بیانات التحقق الخاصة بنا حتی یتمکن النموذج من إخبارنا LAS‏ التعامل مع 
بیانات التحقق‌في أي مکان. تقوم هذه الدالة بانشاء سجل نقوم بتخزينهفي متغیر hist‏ سنستخدم 
هذا المتغیر عندما نبدأفي الرسم والتوضیح. OM‏ قم بتشغیل الخلية وشاهد البرنامج التدريبي 
الخاص بها! يجب أن تبدو مخرجاتك كما يلى: 


Epoch 0 
32/32 
val_loss: 0.6974 - val_accuracy: 0.3699 
Epoch 2/100 
32/32 
val_loss: 0.6943 - val_accuracy: 0.4110 
Epoch 3/100 
32/32 
val_loss: 0.6915 - val_accuracy: 0.4703 
Epoch 4/100 
32/32 


- Os 5ms/step - loss: 0.6990 - accuracy: 0.3542 - 


- Os 2ms/step - loss: 0.6955 - accuracy: 0.4022 - 


Os 2ms/step = loss: 0.6926 = accuracy: 0.4706 =‏ ب 


- Os 2ms/step - loss: 0.6899 - accuracy: 0.5499 - 


- 0s 2ms/step - loss: 0.6874 - accuracy: 0.6468 - 


val loss: 0.6864 - val accuracy: 0.6758 
Epoch 6/100 


32/32 
val loss: 0.6842 - val accuracy: 0.7123 
Epoch 7/100 5 
32/32 
val_loss: 0.6821 - val_accuracy: 0.7489 
Epoch 8/100 
32/32 
val_loss: 0.6801 - val_accuracy: 0.7717 
Epoch 9/100 
32/32 
val_loss: 0.6781 - val_accuracy: 0.8037 
Epoch 10/100 
32/32 
val_loss: 0.6761 - val_accuracy: 0.8128 
Epoch 11/100 
32/32 [= = 

val_loss: 0.6740 - val_accuracy: 0.8219 
Epoch 12/100 
32/32 [= == == 
val_loss: 0.6717 - val_accuracy: 0.8265 


- Os 2ms/step - loss: 0.6849 - accuracy: 0.7133 - 


- Os 2ms/step - loss: 0.6828 - accuracy: 0.7524 - 


- Os 2ms/step - loss: 0.6807 - accuracy: 0.7564 - 


- 0s 2ms/step - loss: 0.6787 - accuracy: 0.7779 - 


- 0s 2ms/step - loss: 0.6767 - accuracy: 0.8072 - 


- 0s 2ms/step - loss: 0.6746 - accuracy: 0.8317 - 


- 0s 2ms/step - loss: 0.6725 - accuracy: 0.8239 - 


Epoch 95/100 
32/32 [= 

val loss: 0.3051 - val accuracy 
Epoch 96/100 

32/32 
val loss: 0.3043 - val accuracy: 0.8995 
Epoch 97/100 
32/32 == 
val_loss: 0.3044 - val_accuracy: 0.9041 
Epoch 98/100 5 
32/32 == 
val loss: 0.3030 - val accuracy: 0.8995 
Epoch 99/100 E 
32/32 == = 
val_loss: 0.3025 - val_accuracy: 0.8995 
Epoch 100/100 5 
32/32 [= 
val_loss 


- Os 2ms/step - loss: 0.2931 - accuracy: 0.8865 - 


- 0s 2ms/step - loss: 0.2920 - accuracy: 0.8816 - 


- 0s 2ms/step - loss: 0.2911 - accuracy: 0.8855 - 


- 0s 2ms/step - loss: 0.2901 - accuracy: 0.8865 - 


- 0s 2ms/step - loss: 0.2896 - accuracy: 0.8806 - 


- 0s 2ms/step - loss: 0.2884 - accuracy: 0.8816 - 
0.3017 - val accuracy 


الفصل الثالت: الشبكات العصبية امامية التغذية 


الآن ترى أن النموذج يتم تدريبه! من خلال النظر إلى الأرقام, يجب أن تكون قادرًا على رؤية 
انخفاض الخطأ وزيادة الدقة بمرور الوقت.في هذه المرحلة. يمكنك اختبار الشبكة العصبية 
بمعاملات فائقة مختلفة. قم بتشغيل الخلايا مرة أخرى لترى كيف يتغير البرنامج التدريبي 
الخاص بك عندما تقوم بتغيير المعاملات الفائقة. بمجرد أن تشعر بالرضا عن نموذجك النهائيء 
يمكنك تقييمهفي مجموعة الاختبار. للعثور على Bo‏ مجموعة الاختبار الخاصة بناء نقوم بتشغيل 
مقتطف الشفرة البرمجية التالية: 


model.evaluate(X_test, Y_test)[1] 


سبب وجود الفهرس 1 بعد دالة التقييم هو أن الدالة ترجع الخطأ كعنصر أول والدقة كعنصر ثان. 
نظرًا e‏ دقيق بما يكفي لعرض المخرجات. يمكنك الوصول إليه بهذه الطريقة. نظرًا للتوزيع 
العشوائي لمجموعة البيانات وكذلك تهيئة الأوزان. ستكون الأرقام والرسوم البيانية مختلفة قليلاً 
في كل مرة نقوم فيها بتشغیل notebook‏ الخاص بنا. ومع ذلك إذا كنت قد اتبعت الهيكل 
الموضح أعلاہ فیجب أن تحصل على دقة اختبار تتراوح من 80 إلى 95/! مثل الإخراج أدناه: 

7/7 [==============================) - 05 2ms/step - loss: 0.3281 - accuracy: 0.8584 


1 .0 
تھانینا! لقد استطعت ان تصمم وتدرب شبكتك العصبية الأولى. 


تحدثناني الأقسام السابقة عن overfitting‏ وبعض تقنيات التنظيم. الآن كيف نعرف أن 
نموذجنا بالفعل foverfitting‏ ما يمكننا القيام به هو رسم الخطأ التدريبي وخطأ الاعتماد على 
عدد الدورات التي تم أخذها. لتوضيح ذلك. نستخدم حزمة آ2126010[1. کالعادق علینا إدخال 
الكود الذي نريد استخدامه: 
import matplotlib.pyplot as plt‏ 
ثم نريد توضيح خطأ التدريب '1055' وخطأ الاعتماد' ۰۰۷۵11055 للقيام WL‏ قم بتشغيل هذا 
المقطع من الكود: 
plt.plot(hist.history['loss'])‏ 
plt.plot(hist.history['val. loss'])‏ 
plt.title('Model loss')‏ 
plt.ylabel('Loss')‏ 
plt.xlabel('Epoch')‏ 


plt.legend(['Train', 'Val'], loc-'upper right') 
plt.show() 


سنشرح کل سطر من مقتطف الشفرة أعلاه. يقول أول سطرين Ul‏ نرید رسم خطأ التدريب 
'1055' وخطاً .'val_loss'slexe'Y!‏ يحدد السطر الثالث olge‏ هذا المخطط: Model loss‏ 
يخبرنا الخطان الرابع والخامس ما يجب تسمية المحورين y‏ و × على التوالي. يحتوي السطر 
السادس على وصف للمخطط الخاص بناء وسیکون موقع الوصف في أعلى اليمين» ويخبر السطر 
السابع jupyter notebook‏ لعرض المخطط. يجب أن تبدو مخرجاتك مثل هذا: 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


Model loss 
0.7 4 — Train 
— Va 
0.64 
ما‎ 
P 0.54 
-l 
0.44 
0.34 
0 20 40 60 80 100 
Epoch 


يمكننا أن نفعل الشيء نفسه لرسم دقة التدريب ودقة التحقق من الصحة باستخدام الكود التالي: 


plt.plot(hist.history['accuracy' ]) 
plt.plot(hist.history['val accuracy']) 
plt.title('Model accuracy') 
plt.ylabel('Accuracy') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'lower right') 


plt.show() 
يجب ان تحصل على رسم بيانى يشبه هذا قلیلای الإخراج:‎ 
Model accuracy 
0.9 4 
0.8 4 
50.74 
o 
m 
3 
9 0.64 
< 
0.5 4 
0.44 —— Train 
—— Va 
0 20 40 60 80 100 


Epoch 
التحسینات التي أدخلت على نموذجنافي مجموعة التدريب تتوافق إلى حد ما مع تحسين‎ oY ls 
مجموعة التحقق من الصحة. لا يبدو أن 8 يمثل مشكلة كبيرةفي نموذجنا (ومع ذلك‎ 
یمکن تحسینه عن طریق تحسین المعاملات الفائقة).‎ 


الفصل الثالت: الشبكات العصبية امامية التغذية 


التدريب. نسمي هذا النموذج -model_2‏ 


model 2 = Sequential([ 
Dense(1000, activation-'relu', input shape-(10,)), 
Dense(1000, activation='relu'), 
Dense(1000, activation-'relu'), 
Dense(1000, activation-'relu'), 
Dense(1, activation-'sigmoid'), 


D 


model_2.compileCoptimizer='adam', 
loss='binary_crossentropy', 
metrics=['accuracy']) 


hist_2 = model_2.fit(X_train, Y_train, 
batch_size=32, epochs=100, 
validation_data=(X_val, Y_val)) 


هناء نبنى نموذجا أكبر بكثير ونستخدم مُحسّن Adam‏ . يعد Adam‏ أحد أكثر أدوات تحسين 
الأداء شيوعًا المستخدمةنی معماريات الشبكات العصبية. لانه سريع ويتسببفي خطأ أقل. إذا قمنا 
بتشغيل هذا الكود ورسمنا مخططات الخطأ ل 2 hist‏ باستخدام الكود التالي (لاحظ أن الكود 
هو نفسه باستثناء أننا نستخدم 2 hist‏ بدلاً من (hist‏ 

plt.plot(hist_2.history['loss']) 

plt.plot(hist 2.history['val loss']) 

plt.title('Model loss') 

plt.ylabel('Loss') 

plt.xlabel('Epoch') 


plt.legend(['Train', 'Val'], loc-'upper right') 
plt.show() 


نحصل على رسم بياني على النحو التالي: 


Model loss 


Loss 


7 
0 20 40 60 50 100 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


هذه علامة واضحة على overfitting‏ تتراجع الاخطاء التدريبية» لکن اخطاء الاعتماد أعلى 
بكثير من الاخطاء التدريبية وتتزايد. إذا رسمنا الدقة باستخدام الكود التالي: 


plt.plot(hist 2.history['accuracy' ]) 
plt.plot(hist 2.history['val accuracy']) 
plt.title('Model accuracy') 
plt.ylabel('Accuracy') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'lower right') 
plt.show() 


يمكننا أيضًا أن نرى فرقًا أوضح بین الدقة التدريبية "accuracy‏ ودقة :'val_accuracy'slexe‏ 


Model accuracy 


e 

© 

o 
1 


Accuracy 


0 20 40 60 80 100 
Epoch 


oY‏ دعنا نجرب بعض استراتيجياتنا لتقليل Goverfitting‏ الأقسام السابقة قدمنا عدة طرق 
لمنع -overfitting‏ ومع ġa‏ هذا القسم نستخدم فقط الحذف العشواتی Sai dropout‏ 
دعنا ندخل الكود الذي نحتاجه لإضافة الحذف التصادفي: 

from keras.layers import Dropout 


ثم نحدد نموذجنا الثالث على النحو التالي: 


model_3 = Sequential([ 

Dense(1000, activation-'relu', input_shape=(10,)), 
Dropout(0.5), 

Dense(1000, activation='relu'), 

Dropout(0.5), 

Dense(1000, activation-'relu'), 

Dropout(0.5), 

Dense(1000, activation-'relu'), 

Dropout(0.5), 

Dense(1, activation='sigmoid'), 


D 
هل يمكنك معرفة الفرق بين النموذج 3 والنموذج 2؟ هناك اختلاف رئيسي واحد:‎ 
أضفنا طبقة جديدة مثل هذه:‎ «Dropout لإضافة‎ 


الفصل الثالت: الشبكات العصبية امامية التغذية 


Dropout(0.5), 
Le» هذا يعني أن الخلايا العصبيةني الطبقة السابقة لديها فرصة 0.5 للإزالة أثناء التدريب.‎ 
2 نجمعها ونشغلها بنفس المعاملات مثل نموذج‎ 


model. 3.compile(optimizer-'adam', 
loss-'binary. crossentropy', 
metrics-['accuracy' ]) 


hist 3 - model 3.fit(X train, Y train, 
batch size-32, epochs-100, 
validation data-(X val, Y val)) 


الآنء دعنا نرسم مخططات الخطأ والدقة. 


plt.plot(hist_3.history['loss']) 

plt.plot(hist 3.history['val loss']) 
plt.title('Model loss') 

plt.ylabel('Loss') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'upper right') 
plt.show() 


سوف نتلقى المخرجات على النحو التالي: 


Model loss 


— Train 
—— Val 


0 20 40 60 80 100 
Epoch 


كما يمكن رؤيته. فإن خطاً التحقق من صحة النموذج 2 أكثر توافقاً مع خطا التدریب (ومع 
ذلك. لا يزال هذا النموذج غير مرغوب فيه والنموذج أكثر من اللازم). لنرسم الدقة بنفس الكود: 


plt.plot(hist 3.history['accuracy' ]) 
plt.plot(hist 3.history['val accuracy']) 
plt.title('Model accuracy') 
plt.ylabel('Accuracy') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'lower right') 
plt.show() 


وسوف تظهر المخرجات على النحو التالي: 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


Model accuracy 


Accuracy 
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مقارنةً بالنموذج 2 ۰ قمنا بتقليل الضبط الزائد بشكل ملحوظ! هذه هي الطريقة التي نطبق بها 

تقنيات التنظيم لتقليل الضبط الزائد في مجموعة التدريب. كتمرين ۰ يمكنك تغيير المعاملات 

العليا ومقارنة النتائج. 

خلاصة الفصل 

* الشبکات العصبية الاصطناعية هي نماذج حسابية تحاكي LAS‏ عمل الخلايا العصبية في 
الدماغ البشري. 

* _ تحتو يكل شبكة عصبية اصطناعية على طبقة إدخال وطبقة إخراج وطبقة مخفية واحدة أو 
أكثر. 

= يطلق على أبسط نوع من نمذجة الخلايا العصبية اسم Perceptron‏ « والذي يمكن أن 
يحتوي على عدد كبير من المدخلات بمخرج واحد. 

" يتمثل التقييد الرئيسي للشبكات العصبية الإدراكية Perceptron‏ في عدم القدرة على 
تصنیف البيانات التي لا يمكن فصلها خطیا. 

٭ الهدف من عملية تعلم الشبكة العصبية هو العثور على مجموعة من قيم الاوزان التي تجعل 
ناتج الشبكة العصبية مطابقا قدر الإمكان مع القيم المستهدفة الفعلية. 

* تقرردالة التنشيط ما إذاكان يجب تنشيط الخلية العصبية ام لا. 


الفصل الثالت: الشبكات العصبية امامية التغذية 


اختبار 


0. ما هو تأثیر اختیار معدل التعلم الصغير جدا أو الكبير جد على عملية التعلم؟ 

1. صف ظاهرة تلاشي الانحدار؟ 

2. ما هي الميزات المرغوبة لدالة التنشيط؟ 

3. ما هي دالة التنشيط المستخدمة في طبقة الإخراج لمشاكل التصنيف الثنائي ومتعدد الفتات؟ 
4. ما الدور الذي يلعبه المحسن optimizer‏ في عملية التعلم للشبكات العصبية؟ 


ثمرين 


قم بإنشاء شبكة عصبية ذات طبقتين مخفيتين لتصنيف مجموعة بیانات Iris‏ قم بتوضيح مخططات 
الدقة.والخطأ لمجموعة التدريب والتحقق من الصحة أثناء التدريب. 


نصائح لتوسيع نطاق البيانات نصائح لإدخال البيانات 
from sklearn.datasets import load_iris scaler = StandardScaler()‏ 
iris = load iris(O) X_scaled = scaler. fit_transform(X)‏ 


X = iris['data'] 
y = iris['target'] 


کے 
um‏ 


الفصل الرابع: الشبكة العصبية الالتفافية 


المقدمة 


في هذا الفصل. نقدم مفاهيم الشبكات العصبية الالتفافية Convolutional neural)‏ 
(network‏ أو اختصارا CNN‏ .تتضمن هذه المفاهيم المکونات الرئيسية للشبكة التي تشكل 
بُیة الشبكة العصبية الالتفافية. تعمل الشبكات العصبية الالتفافية بشکل جيد للغاية بالنسبة 
للبيانات غير المهيكلة مثل الصور. بعد التعرف الكامل على بنية الشبكات العصبية الالتفافیةءنی 
نهاية الفصل سنقوم بتنفيذ مثال عملي باستخدام الشبكات العصبية الالتفافيةفي „keras‏ 


الشبكات العصبية الالتفافية (CNN)‏ 

في الشبكات العصبية أمامية التغذية المتصلة بالکامل. يتم توصيل جميع العقد الخاصة بطبقة 
واحدة بجميع عقد الطبقة التالية. كل اتصال له وزن رس »والذي يجب أن doled‏ خوارزمية 
التعلم. لنفترض أن مدخلاتنا عبارة عن صورة 64 بكسل x‏ 64 بكسل على مقياس رمادي. نظرّا 
لأنه يمكن تمثیل کل بکسل رمادي بقيمة 1ء نقول إن حجم القناة هو 1. يمكن تمثيل هذه الصورة 
ب 4096 = 1 x‏ 64 × 64 ((قناة x‏ عمود (dex‏ ومن ثم فان طبقة الإدخال للشبكة العصبية 
أمامية التغذية التي تعالج مثل هذه الصورة بها 4096 عقدة. افترض أن الطبقة التالیة بها 500 
عقدة. نظرًا oY‏ جميع العقدني الطبقات التالية متصلة تمامّاء فسوف نقوم بحساب اوزان 
2048000 = 500 × 4096 بين الإدخال والطبقة المخفية الأولى. ومع ذلك بالنسبة 
للمشكلات المعقدة. نحتاج ble‏ إلى عدة طبقات مخفیةنی الشبكة العصبية أمامية التغذية 
الخاصة بناء لأن الشبكة العصبیة أمامية التغذية البسيطة قد لا تكون قادرة على تعلم نموذج تعيين 
المدخلات إلى المخرجاتفي بيانات التدريب. يؤدي وجود طبقات مخفية متعددة إلى تفاقم 
مشكلة وجود عدد كبير جد من الأوزانفي شبكة التغذية الخاصة بنا ویجعل عملية التعلم أكثر 
صعوبة عن طريق زيادة حجم مساحة البحث. كما أنه يتيح المزيد من التدريب والوقت والموارد. 
بالإضافة إلى ذلك. فإن عددًا كبيرًا من المعاملات يزيد من ميل الشبكة إلى الضبط الزائد. لذلك. 
من أجل معالجة هذه المشکلات. تم تقديم الشبكات العصبية الالتفافية (CNN)‏ كتطوير شائع 
جدًا للشبکات العصبية القياسية. الشبكات العصبية الالتفافية هى فثة من الشبكات العصبية أمامية 
التغذية التي تستخدم طبقات الالتفاف لتحليل المدخلات باستخدام طبولوجيا الشبکة. مثل 
الصور ومقاطع الفيديو. يعتمد اسم هذه الشبكات على دالة رياضية تسمى الالتفاف. والتي 
يستخدمونهاني بنيتهم. باختصار الشبكات الالتفافية هي شبكات عصبية تستخدم الالتفاف Say‏ 
من ضرب المصفوفةفي طبقة واحدة على الأقل من طبقاتها. 

ما يميز شبكة العصبية الالتفافية هو الطريقة التي يتم بها تنظيم الاتصالات بين الخلايا العصبية 
وبنية الطبقة المخفية الفريدة المستوحاة من آلية معالجة البيانات المرئية الخاصة بنا داخل القشرة 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


البصرية لدینا. على عکس الشبكات العصبية أمامية التغذیة الطبقاتفي CNN‏ تنتظم بثلاثة 
أبعاد: العرض والارتفاع والعمق. 

واحدة من أهم ميزات الشبكة الالتفافیة التي يجب أن تضعهاني اعتبارك بغض النظر عن عدد 
الطبقات الموجودةفي بنيتهاء هي أن البنية الكاملة لشبكة CNN‏ تتكون من جزأين رئيسيين.: 
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" استخراج المیزات ‘(Features Extraction)‏ في هذه الطبقة ٠‏ تقوم الشبكة بتنفيذ 
سلسلة من عوامل الالتفاف (convolution)‏ والتجميع -(pooling)‏ إذا أردنا تحديد 
صورة قطة في الصورة » فهذا هو الجزء الذي يتم فيه التعرف على ميزات معينة مثل 
الأذنين والكفوف ولون فرو القطط. باختصار ۰ تتمثل مهمة هذه الطبقة في التعرف 
على الميزات المهمة في بكسلات الصورة. تتعلم الطبقات الأقرب إلى الإدخال التعرف 
على الخصائص البسيطة مثل الحواف وتدرجات الالوان c‏ بينما تدمج الطبقات الأعمق 
خصائص بسيطة مع خصائص أكثر تعقیدا. 

* التصنيف: هنا تعمل الطبقة المتصلة بالكامل کمصنف بعد خطوة استخراج الميزة. 
تحدد هذه الطبقة الميزة الأكثر صلة بفئة معينة ء لذا فهي تتوقع فثة الصورة بناءً على 
الخصائص المستخرجة في الخطوات السابقة. يمكن رؤية معماريتها العامة في الشكل 


4-1 


خريطة 
بالكامل à‏ الميزات 
J‏ | | | | 
التوزيع RT‏ استخراج الميزات 


شكل 1-4. لمحة عامة عن هيكل الشبكة العصبية الالتفافية 

تتميز الشبكات العصبية الالتفافية بثلاث خصائص مميزة مقارنة بالشبکات العصبية الأخرى: 
المجالات المحلية الاستقبالية :(local receptive fields)‏ كل خلية عصبية في CNN‏ 
مسؤولة عن منطقة محددة من بيانات الإدخال . وهذا يسمح للخلايا العصبية بتعلم أنماط 
مثل الخطوط والحواف والتفاصيل الصغيرة التي تشكل الصورة. تسمى هذه المنطقة 
المحددة من الفضاء التي تتعرض لها خلية عصبية أو وحدة في بيانات الإدخال المجال 
المحلي الاستقبالي. يُعرّف المجال الاستقبالي بحجم فلتر أحادي الطبقة في شبكة عصبية 
التفافية. 


الفصل الرابع: الشبكة العصبية الالتفافية 


2 مشاركة المعاملات (parameters sharing)‏ و الارتباط المحلى Local)‏ 
:(connectivity‏ تحتو يكل طبقة التفافية على عدة فلاتر. وهذا معامل فائق محدد مسبقاً. 
يحتوي کل من هذه الفلاتر على عرض وارتفاع معدل يتوافق مع مجال الاستقبال المحلي 
للخلايا العصبية. تنشی الفلاتر التي تعمل على بيانات الإدخال خريطة المعالم عند إخراج 
الطبقة الالتفافية. مشاركة المعالم هي مشاركة الأوزان بواسطة جميع الخلایا العصبیة في 
خريطة المعالم. الاتصال المحلي » من ناحية أخرى . هو مفهوم أن كل خلية عصبية مرتبطة 
فقط بمجموعة فرعية من الخلايا العصبیة . على عكس الشبكة العصبية الأمامية التي ترتبط 
فيها جميع الخلايا العصبية بشكل كامل. تساعد هذه الميزات في تقليل coole‏ 
في جميع أنحاء النظام وجعل الحوسبة أكثر كفاءة. 

3. جمع العينات (sub-sampling)‏ او التجميع UL :(pooling)‏ ما يأتي أخذ العينات 
الفرعية أو الدمج فورًا بعد طبقة الالتفاف على شبكة CNN‏ يتمثل دورها في خفض 
ناتج الطبقة الالتفافية على طول الأبعاد المكانية للارتفاع والعرض. تتمثل الوظيفة الرئيسية 
للتجميع في تقليل عدد المعاملات التي يجب أن تتعلمها الشبكة. تقلل هذه الميزة Cai‏ 
من تأثير overfitting‏ « مما يؤدي إلى زيادة أداء الشبكة بشكل عام ودقتها. 

لعبت الشبکات الالتفافية دوزا مهما فی تاریخ التعلم العمیق. Lai!‏ مثال مهم وناجح 
لفهمنا لدراسه الدماغ فى تطبيقات التعلم الآلى. كانت الاشبکات العصبية الالتفافية من 
بين الشبکات العصبية (UI Joll‏ تم استخدامها فى Ja‏ وتنفیذ تطبیقات الأعمال 


المهمة. وحتی يومنا هذا فهی فى طليعة تطبیقات Jloc Ul‏ فى التعلم العميق. 


عامل الالتفاف 


تنتمي الشبکات الالتفافية إلى مجموعة من الشبکات العصبية التي تأخذ الصورة کمدخلات 
وتعرضها لمجموعة من الأوزان والتحیزات. وتستخرج الميزات» وتحصل على النتاتج. تمیل إلى 
تقلیل حجم الصورة المدخلة باستخدام الکیرنل (الفلتر) مما یجعل من السهل استخراج 
المیزات مقارنة بالشبكة العصبية للتغذية. أساس الشبكة الالتفافية هو عامل الالتفاف. 

الالتفاف ثنائي الأبعاد هوني الاساس عملية بسيطة نسبيًا. تبدأ بکیرنل» وهي عبارة عن مصفوفة 
ضغيرة من الأوزان. تنزلق الكيرئل :على بیانات الادخال ثناتية lM‏ وتضرب GSN‏ جزء 
الإدخال الموجود عليه حالیّا. ثم تلخص النتائجنی بکسل الاخراج (الشکل 2-4). تکرر الکیرنل 
هذه العملية لكل موقع تنزلق عليه (تلتف عليه)» وتحول مصفوفة ثنائية الابعاد من الخصاتص 
إلى مصفوفة خصائص ثائیة الأبعاد آخری. خصائص الاخراج هي‌ني الأساس مجموع الاوزان 
لخصائص ال دخال التي تکون تقریبّافی نفس الموقع مثل بکسل الإخراجفي طبقة الادخال. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 
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شكل 2-4. عامل الالتفاف 


في المثال أعلاه. خصائص الإدخال هي ۰55225 وخصائص الإخراج 3×3-9. إذا كانت 
هذه طبقة قياسية متصلة بالکامل» فسنحصل على مصفوفة وزن برقم معامل ۰29*9-225 حيث 
تکون کل خاصية مخرجات هي الوزن الإجمالي لكل خاصية إدخال. تسمح لنا الالتفافات بإجراء 
هذا التحويل باستخدام 9 معاملات فقط. 

تأثير الالتفاف هو التأكيد على حدود الأشكال المختلفة. يمكن تعديل الكيرنل المتغيرة لتلبية 
الاحتیاجات الخاصة. ومع ذلك. بدلاً من محاولة القيام بذلك Coty‏ تقوم الشبكة الالتفافية 
العميقة بتفويض هذه المهام لعملية التعلم. 

يؤدي التطبيق المتوازي للكيرنلات (الفلاتر) المختلفة إلى تداخلات معقدة يمكن أن تبسط 
استخراج الميزات المهمة Go‏ للتصنيف. يتمثل الاختلاف الرئيسي بين الطبقة المتصلة GLS‏ 
والطبقة الالتفافيةفي قدرة الطبقة الثانیة على العمل مع هندسة موجودة تقوم بتشفير جميع العناصر 
اللازمة لتمییز کائن عن آخر. لا يمكن تعميم هذه العناصر على الفور» ولكنها تتطلب eje‏ من 
المعالجة لأداء الغموض. على سبيل المثال. العینان والأنف متطابقتان تقريبًا. كيف يمكن تقسيم 
الصورة بشكل صحيح؟ تأتي الإجابة بتحليل مزدوج: هناك اختلافات دقيقة يمكن اكتشافها 
باستخدام الفلاتر الدقيقة. والأهم من ذلك. أن الهندسة الكلية للکائنات تستند إلى علاقات داخلية 
ثابتة تقریبًا. على سبیل المثال» يجب أن تشكل العينان والأنف مثللًا متساوي الأضلاع, لأن تناسق 
الوجه يعني نفس المسافة بین كل عين والأنف. يمكن القيام بذلك مسبقاء مثل العديد من تقنیات 
معالجة الصور. أو يمكن تركه لعملية التعلم بفضل قوة التعلم العميق. نظرًا لن دالة الخطأ وفتات 
المخرجات تتحكم GS‏ الاختلافات. يمكن للشبكة الالتفافية العميقة معرفة ما هو مهم 
لتحقيق هدف محدد مع التخلص من جميع التفاصيل غير المجدية. 


الفصل الرابع: الشبكة العصبية الالتفافية 


Gà ue‏ الالتفاف 

طبقة الالتفاف هي أهم لبنةنی بناء شبكة CONN‏ تحتوي هذه الطبقة على مجموعة من الفلاتر 
T‏ ف Cal‏ باسم الكيرنل (kernel)‏ أو كاشفات المعالم «(feature detectors)‏ حيث يتم 
تطبيق كل فلتر على جميع مناطق بيانات الإدخال. بمعنى آخر تتمثل المهمة الرئيسية لطبقة 
الالتفاففي تحديد الخصائص الموجودةفي المناطق المحلية لصورة الادخال. والتی تكون مشتركة 
لمجموعة البیانات بأكملها. ينتج عن التعرف على الميزة هذا إنتاج خريطة ان انش او المعالم 
عن طريق تطبيق عوامل التصفية. تطبق طبقة الالتفاف فلترا محلیّا على صورة الادخال. ينتج عن 
هذا تصنيف أفضل لوحدات البكسل المجاورة الأكثر bU E‏ نفس الصورة. بمعنی آخرء يمكن 
أن ترتبط وحدات البکسل الخاصة بالصور المدخلة ببعضها البعض. على سبيل المثال.في صور 
الوجه. يكون الأنف دائمًا بين العينين والفم. عندما نطبق المرشح على مجموعة فرعية من 
الصورة: فإننا نستخرج بعض الخصائص المحلية. يشار إلى هذه الطبقة أيضًا باسم طبقة استخراج 
الميزات او المعالم. OY‏ يتم استخراج خصائص الصورةني هذه الطبقة. 

تحتوي كل طبقة التفاف على مجموعة محددة من المعاملات الفائقةء كل منها يحدد عدد 
الاتصالات وحجم الإخراج لخرائط الميزات: 

٭ حجم الكيرنل: يصف الحجم الأساسي K‏ (يسمى Clot‏ حجم الفلتر) الحقل 
الاستقبالي الذي ينطبق على جميع مواقع الإدخال. تسمح زيادة هذا المعامل لطبقة 
الالتفاف باستقبال المزيد من المعلومات المكانية ء مع زيادة عدد آوزان الشبكة في 
نفس الوقت. 

e‏ عدد الكيرنل: يتوافق عدد الكيرنلات بشكل مباشر مع عدد المعاملات القابلة للتعلم 
وعمق D‏ لحجم إخراج طبقة الالتفاف. مثلما ينتج كل کیرنل خريطة ميزات مخرجات 
منفصلة « فإن الکیرنلات D‏ تنتج خريطة ميزات مخرجات بعمق D‏ 

e‏ الخطوة: يمكن اعتبار الالتفاف تراکمیّا عن طريق "انزلاق" الکیرنل على حجم 
الإدخال. ومع ذلك . لا يجب أن يحدث "الانزلاق" على مسافة بکسل واحد في كل 
مرة » وهو ما تصفه الخطوة (Stride)‏ تحدد الخطوة S‏ عدد وحدات البكسل التي 
تنقلها الكيرنل بین کل حساب لخاصية الاخراج. تنتج الخطوات الا کبر حجمًا خرائط 
ميزات مخرجات أصغر لأنه يتم إجراء عدد أقل من العمليات الحسابية. يظهر هذا 


المفهوم في الشكل أدناه: 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


الكيرنل 23 , الخطوة 5-3 الكيرنل k=3‏ , الخطوة 5-2 الكيرنل 23 , الخطوة 5-1 
خريطة المعالم : Y‏ خريطة المعالم : ٤‏ خريطة المعالم : ۷ 


الطبقات الصفرية: نظرًا لتشغيل عملية الالتفاف . تُستخدم الطبقات الصفرية 
(Padding)‏ او الحشو للتحكمني الأبعاد بعد تطبيق مرشحات آکبر من 1 * 1 ولمنع 
فقدان المعلومات في الحواشي. بمعنى آخر ء UU‏ ما يتم استخدام الطبقة الصفرية 
للحفاظ على الأبعاد المكانية لطبقات الإدخال والإخراج كما هي. عن طريق إضافة 
مدخلات صفرية حول المحیط ‏ يمكن تجنب انكماش الأبعاد المكانية عند الالتفاف. 
تعد قيمة الأصفار المضافة على كل جانب لكل بُعد مكاني معامل فاتق إضافي P‏ 
يظهر مثال على التقسيم الصفري في الشكل أدناه: 
الكبرنل K=3‏ , الخطوة 5-3 الحشو P=1‏ 
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التمدد (Dilation)‏ التمدد او الفتحة d‏ التي تم إدخالها مؤخرًا هي معامل فائق أخرى 
یتیح لطبقة الالتفاف أن يكون لها مجال استقبال أكثر كفاءة من الإدخال « مع الحفاظ 
على حجم الکیرنل ثابتا. یتم الحصول على ذلك عن طريق إدخال المسافة d‏ بين كل 
خلية من الكيرنل. یستخدم الالتفاف القياسي ببساطة التمدد 0. ومن ثم فإن لها کیرنل 
مستمرة. من خلال زيادة المساحة » يمكن لطبقة الالتفاف أن تشغل مساحة أكبر من 
الإدخال مع الحفاظ على ثبات استهلاك الذاكرة. يظهر مفهوم الالتفافات التمددية € 
التى تسمى UPS‏ الالتفافات الأذينية «(atrous convolutions)‏ فی الشكل 4-4-3 
مع تمددات مختلفة. ۱ 


وفقًا لحجم الادخال W‏ حجم الکیرنل KI‏ الخطوة 5 ء التمدد d‏ و طبقة الصفریة يتم 
حساب حجم الاخراج الناتج على النحو التالي: 


m = HEDD), 


الفصل الرابع: الشبكة العصبية الالتفافية 


الکیرنل : 3x3‏ , التمدد : 1 الکرنل : 3x3‏ , التمدد : 0 


الکرنل : 3x3‏ , التمدد : 3 الکرنل : 3x3‏ , التمدد : 2 


شکل 3-4. التمدد على مدخلات ثنائية الأبعاد باحجام مختلفة. 

استخدام الالتفاف له ثلاث مزایا مهمة. أولأً dole‏ ما یکون للشبکات العصبية الالتفافية 
تفاعلات متفرقة (Sparse interactions)‏ تستخدم الشبکات العصبية آمامية التغذية مصفوفة 
من المعاملات التي تصف العلاقة بين وحدات الادخال والاخراج. هذا يعني أن کل وحدة إخراج 
متصلة بکل وحدة إدخال. ومع ذلك فان الشبکات العصبية الالتفافية لها تفاعلات متفرقة يتم 
تحقیقه عن طریق تقلیص الکیرنل من المدخلات. على سبیل المثال. يمكن أن تحتوي الصورة 
على ملایین أو آلاف وحدات البكسلء ولکن آثناء معالجتها باستخدام الکیرنل» یمکننا تحدید 
المعلومات المفيدة التي تتکون من عشرات أو متات من وحدات البکسل. هذا يعني أنه يتعين 
علينا تخزین عدد أقل من المعاملات التي لا تقلل من الحاجة إلى الذاكرة فحسب. بل تعمل 
Cal‏ على تحسين الأداء الإحصائي وس GG‏ تستخدم الشبکات العصبية الالتفافية مشاركة 
المعاملات. أي أنهم يعيدون استخدام نفس المعاملات للعديد من الدوال. تعطي المعاملات 
المشتركة أيضًا الميزة الرئيسية الأخيرة» التقارب .(Equivariance)‏ التقارب يعني Gal‏ حالة 
ازاحة المدخلات. يتم إزاحة المخرجات بنفس الطريقة. هذه الميزة ضرورية AR‏ البيانات 
ثنائية الأبعادء لأنه إذا تم نقل صورة أو جزء منها إلى موقع آخرني الصورة. فسيكون لها نفس 
العرض. 
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طبقة الالتفاف في keras‏ 

لإنشاء طبقة التفافنی Keras‏ يجب عليك Vol‏ إدخال الوحدات المطلوبة على النحو التالي: 
from keras.layers import Conv2D‏ 

يمكنك بعد ذلك إنشاء طبقة الالتفاف باستخدام التنسيق التالي: 


Conv2D (filters, kernel size, strides, padding,  activation-'relu', 
input. shape) 


يجب عليك إدخال الوسيطات التالية: 


filters "‏ تعداد الفلاتر 

:kernel size *‏ رقم پشیر إلى ارتفاع وعرض نافذة الالتفاف (حجم الكيرنل). 

:strides *‏ خطوة الالتفاف. إذا لم تحدد أي شيء ۰ فسيتم تعیینه على واحد افتراضيًا. 

same او‎ valid :padding ® 

:activation *‏ عادة ما يتم استخدام دالة التنشيط .relu‏ 
عند استخدام طبقة الالتفاف الخاصة بك كطبقة أولىني النموذج» يجب عليك إدخال وسيطة 
input shape‏ إضافية. هذه مجموعة تحدد ارتفاع المدخلات وعرضها وعمقها (على التوالي). 


تأکد من عدم تضمین وسیطه input. shape‏ إذا (oJ‏ تكن طبقه الالتفاف هی الطبقة 


«Ai^ ui الأولى فى‎ 


طبقة التجميع (الدمج] 

تتمثل إحدى مزايا طبقات الالتفاففي آنها تقلل عدد المعاملات المطلوبة وتحسن الأداء وتقلل 
من الضبط الزائد. بعد عملية الالتفاف غالبا ما يتم إجراء عملية آخری: الدمج او التجمیع 
(عصنلم۳0). تساعد طبقة التجمیع على تقلیل مقدار قوة الحوسبة المطلوبة لمعالجة البیانات 
وهي مسوولة عن تقلیل الأبعاد. بمساعدة تقلیل الأبعاد. يتم تقلیل مقدار قوة المعالجة المطلوبة 
لمعالجة مجموعة البیانات. یمکن تقسیم التجمیع إلى نوعین: تجمیع الحد الأقصى 
(maximum pooling)‏ تجميع المتوسط -(average pooling)‏ النوع الأكثر شيوعًا للتجمیع 
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هو الحد الأقصى من التجمیع والشبکات (2x2)‏ کل جزء واختیار الخلایا العصبية مع أقصى 
قدر من التنشيطفي كل شبكة واستبعاد الباقي. من الواضح أن مثل هذه العملية تزیل 175 من 
الخلایا العصبية وتحافظ فقط على الخلایا العصبية التي تلعب الدور GSW‏ المقابل.في 
التجمیع المعتمد على المتوسط . يتم حساب متوسط قيمة الکیرنل (الشکل 4-3). 
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شكل 44 الحد الأقصى للتجميع ومتوسط التجميع 
لكل طبقة دمج. هناك معاملان : حجم الخلية وخطوتھاء على غرار معاملات الخطوة والطبقات 
في طبقات الالتفاف. الخیار الشائع هو اختيار حجم الخلية 2 والخطوة 2. ومع ذلك فان اختيار 
حجم الخلية 3 والخطوة 2 لیس من غير المألوف. تجدر الإشارة إلى أنه إذا كان حجم الخلية کبیرا 
جداء فقد تتجاهل طبقة الدمج الكثير من المعلومات وقد لا تكون مفيدة. 


تصنيف الصور مع الشبكة الالتفافية فى keras‏ 
لتصنيف الصورء نحتاج أولاً إلى مجموعة من البيانات والعلامات لکل صورة. لحسن الحظ. لا 
يتعين علینا تجريف الويب (scrape)‏ يدويًا Bou‏ عن الصور ووضع علامة عليها بأنفسناء حيث 
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توجد العديد من مجموعات البيانات (Dataset)‏ القياسية التي يمكننا استخدامها.ني هذا المثالء 
سوف نستخدم مجموعة بيانات 01118[2-10. تفاصيل مجموعة البيانات كما يلي: 


* أبعاد الصورة: صورة مصغرة 32x32‏ بكسل. 

* العلامات (التسميات): 10 علامات (مخرجات) تشمل: طائرة ء سيارة ء طاثر » قطة ء 
غزال . کلب . ضفدع . حصان ء سفینة وشاحنة. 

* حجم مجموعة البيانات: 60.000 صورة مقسمة إلى 50000 بيانات للتدريب و 10000 
بيانات للاختبار. 


أول T‏ يتعين علينا القيام به هو استيراد مجموعة بيانات الصورة. نفعل هذا مع Keras‏ عن 
يق تشغيل الكود التالي على :jupyter notebook‏ 


from keras.datasets import 0 
(x train, y train), (x test, y test) = cifar10.1oad data() 


Downloading data from https://www.cs.toronto.edu/-kriz/cifar-10-python.tar.gz 
170500096/170498071 [==============================] - 2s 6 
170508288/170498071 [==============================] - 2s Qus/step 
و‎ (train, y train) يتم الآن تخزين البيانات التي نحتاجهاني المصفوفات المقابلة‎ 
نلقي نظرة فاحصة على مجموعة البيانات. دعونا نرى كيف تبدو‎ bes .(x_test, y test 
مصفوفة خصائص الإدخال لدينا:‎ 
print('x_train shape:', x_train.shape) 
x_train shape: (50000, 32, 32, 3) 
تحتوي على ما يلي:‎ x train يخبرنا شكل المصفوفة أن مجموعة بيانات‎ 
صورة‎ 50000 = 
ارتفاع 32 بكسل‎ " 
عرض 32 بكسل‎ * 
عمق 3 بکسل (مرتبط باللون الأحمر والأخضر والأزرق)‎ * 
دعونا نرى كيف تبدو مصفوفة العلامات (المخرجات):‎ 
print('y train shape:', y_train.shape) 
y train shape: (50000, 1) 
دعنا نحاول رؤية‎ OW هذا يعني أن هناك رقمًا (مرتبطًا بالعلامة) لكل صورة من 50000 صورة.‎ 
مثال على صورة وعلامتها لفهم أفضل:‎ 
print(x train[0]) 
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بينما يرى الكمبيوتر الصورة بهذه الطريقة. فإنها ليست مفيدة جد لنا. لذلك دعونا نوضح صورة 
x. 71‏ ]0[ باستخدام حزمة :matplotlib‏ 


import matplotlib.pyplot as plt 
img = plt.imshow(x train[0]) 


plt.imshow‏ هي دالة تعرض قيم البکسل المرقمةفي x train[0]‏ كصورة فعلية. الصورة 
الموضحة أعلاه منقطة ALU‏ وذلك OY‏ حجم الصورة هو 32 x‏ 32 بکسل وهو صغير جدا. 
الان دعونا نرى ما هي علامة هذه الصورةفي مجموعة البيانات الخاصة بنا: 
print('The label is:', y train[0])‏ 
The label is: [6]‏ 
نرى أن التسمية "6". يتم ترتيب تحویل eli MI‏ إلى تسميات ty‏ على حرف الأبجدية الإنجليزية 
على النحو التالي: 
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لذلك. نرى من الجدول أن الصورة أعلاه وصفت بأنها صورة ضفدع (التسمیة 6). لنلق نظرة 
على مثال آخر للصورة عن طريق تغییر الفهرس إلى 1 (الصورة الثانيةفي مجموعة البيانات الخاصة 
بنا) بدلا من 0 (الصورة الأولىفي مجموعة البیانات الخاصة بنا): 


img = plt.imshow(x_train[1]) 


دعونا نظهر العلامة كذلك: 
print('The label is:', y train[1])‏ 
The label is: [9]‏ 

باستخدام الجدول السابق. نرى أن هذه الصورة معلمة على أنها شاحنة. 

الآن بعد أن راجعنا مجموعة البيانات الخاصة بناء نحتاج إلى معالجتها. الملاحظة الأولى التي 
نجريها هي أن تسمياتنا ليست مفيدة جدا كرقم فئة. هذا OM‏ الفصول ليست بالترتيب. لتوضیح 
هذه النقطة دعنا نعطي مثالا. ماذا يحدث إذا لم تتمكن شبكتنا العصبية من تحديد ما إذا كانت 
الصورة سيارة (التسمية: 1) أو شاحنة (التسمية: 9). هل يجب أن نعتبر المتوسط ونتوقعه ککلب 
(التسمية: 5)؟ بالتأكيد مثل هذا الشيء لا معنى له. 
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في الفصل السابق . أنشأنا شبكتنا العصبية الأولى للتنبؤ بأسعار المنازل باستخدام Keras‏ « 
قد تتساءل عن سبب تمكننا من استخدام علامتي ]0[ و ]1[ هناك. هذا بسبب وجود فئتین فقط 
ویمکننا تفسير ناتج الشبكة العصبية على أنه احتمال. بمعنى , إذا كان ناتج الشبكة العصبية 0.6 
> فهذا يعنى آنها تعتقد أنها أعلى بنسبة 160 من متوسط سعر المنزل. ومع ذلك . لا يعمل هذا 
فى تکوینات متعدد: الطبقات مكل هذا المثال « حيث يمكن أن تنتمي الصورة إلى واحد من 10 
cults‏ مختلفة. ۱ 

ما نریده le‏ هو احتمال كل فئة من الفئات العشر المختلفة. من أجل ذلك ۰ نحتاج إلى 10 
عصبونات ناتجة في شبکتنا العصبية. oY GE‏ لدينا 10 LOE‏ عصبية ناتجة ء يجب أن تتطابق 
تسمیاتنا أيضًا. للقیام بذلك » نقوم بتحویل التسمية إلى مجموعة من 10 آرقام . كل منها يشير 
إلى ما ٍذا کانت الصورة تنتمي إلى تلك الفتة أم لا. لذلك إذاكانت الصورة تنتمي إلى الفتة الأولىء 
فسیکون الرقم الأول في هذه الفتة 1 وجمیع الأرقام الآخری في هذه الفئة ستکون 0. یسمی هذا 
ترميز (one-hot)‏ « ويكون جدول التحويل لهذا المثال على 55 
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للقيام بهذا التحویل . استخدم Keras‏ مرة أخرى: 


from keras.utils import np_utils 

y_train_one_hot = keras.utils.np_utils.to_categorical(y_train, 10) 

y_test_one_hot = keras.utils.np_utils.to_categorical(y_test, 10) 

يعنى السطر(10 y train one hot = keras.utils.np utils.to categorical(y train,‏ 
cs‏ تأخذ المصفوفة الأصلية برقم y_train‏ فقط ونحولها إلى y_train_one_hot‏ وذلك 
باستخدام ترمیز one, hot‏ الرقم 10 مطلوب كمعامل GY‏ يجب عليك إخبار الدالة بعدد الفثات 


الموجودة. 
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الآن ء لنفترض أننا نريد أن نرى كيف تبدو تسمية الصورة الثانية (الشاحنة ذات العلامة: 9) 


فى هذا الكود: 


print('The one hot label is:', y_train_one_hot[1]) 


[0. 0. 0. 0. 0. 0. 0. 0. 0. 1.] 


The one hot label is: 


الآن بعد أن عالجنا علامات (y)‏ الخاصة بنا ء قد نرغب فی معالجة صورتنا (x)‏ أيضًا. الخطوة 
الشائعة التي نتخذها هي ترك القيم بین 0 و1 ء مما يساعد على تدريب شبكتنا العصبية. نظرًا 
لأن قيم البكسل لدينا تأخذ بالفعل lod‏ بين 0 و 255 ۰ فنحن نحتاج ببساطة إلى تقسيمها على 


:255 


x train - x train.astype('float32') 
x test = x test.astype('float32') 
x train = x train / 255 
x test = x test / 255 


عملياء ما نقوم به هو تحويل النوع إلى "float32"‏ ۰ وهو نوع bly‏ يمكنه تخزين القيم في 
الكسور العشرية. ثم نقسم کل خلية على 255. إذاكنت ترغب في ذلك ۰ يمكنك إلقاء نظرة على 
قيم المصفوفات للصورة التدريبية الأولى عن طريق تنفيذ الخلية: 
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3۲۴۵۷ )]]]8.23137255۰, 
[0.16862746, 
[0.19607843, 
[0.61960787, 
[0.59607846, 
[0.5803922 , 
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[[0.8156863 , 
[0.7882353 , 
[0.7764706 , 
[0.627451 , 
[0.21960784, 
[0.20784314, 


[[0.7058824 , 
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[0.6784314 , 0.48235294, 0.16470589], 
[0.7294118 , 0.5647059 , 0.11764706], 
[0.72156864, 0.5803922 , 0.36862746], 
[0.38039216, 0.24313726, 0.13333334], 
[0.3254902 , 0.20784314, @.13333334]], 
[[0.69411767, 0.5647059 , 0.45490196], 
[0.65882355, 0.5058824 , 0.36862746], 
[0.7019608 , 0.5568628 , 0.34117648], 
[0.84705883, 0.72156864, 0.54901963], 
[0.5921569 , 0.4627451 , 0.32941177], 


[0.48235294, 0.36078432, 0.28235295]]], dtype-float32) 
حتى الآن لدينا مجموعة تدريب واحدة ومجموعة اختبار واحدة. على عكس المثال الوارد في‎ 
الفصل السابق . لا نقوم بتقسيم مجموعة التحقق الخاصة بنا مقدمّا ء حيث يوجد اختصار لهذا‎ 
سنقوم بتقديمه لاحقا.‎ 
معمارية‎ by تحدید معمارية النموذج الخاصة‎ Yol على غرار المثال السابق . يجب علینا‎ 


CNN‏ التي سنبنیها هي كما يلي: 
E E‏ الصورة المدخلة 
التصنيف $ m 1 j‏ 
(۱۰ كلاس) 
e Conv Layer (32 Filter size 3x3)‏ 


وقيم معاملات المعمارية المذكورة أعلاه تتلخص على النحو التالي: 
e Conv Layer (32 Filter size 3x3)‏ 


e Max Pool Layer (Filter size 2x2) 

e Dropout Layer (Prob of dropout 0.25) 
e Conv Layer (64 Filter size 3x3) 

e Conv Layer (64 Filter size 3x3) 

e Max Pool Layer (Filter size 2x2) 

e Dropout Layer (Prob of dropout 0.25) 
e FC Layer (512 neurons) 

e Dropout Layer (Prob of dropout 0.5) 
e FC Layer, Softmax (10 neurons) 


تحتوي هذه المعمارية على الكثير من الطبقات )251 مما رأيناه من قبل) ء لكنها كلها مبنية من 
مفاهيم رأيناها من قبل. ومع ذلك ‏ يتم إنشاء کل طبقة بسطر واحد فقط من التعليمات البرمجية 
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ولا داعي للقلق! لاحظ أن وظيفة softmax‏ تقوم ببساطة بتحويل إخراج الطبقة السابقة إلى 
توزيعات محتملة » وهو ما نريده لمشكلة التصنيف الخاصة بنا. 

لبرمجة هذا . سنستخدم نموذج Keras‏ المتسلسل. ومع ذلك . نظرًا OY‏ لدينا العديد من 
الطبقات في نموذجنا . فإننا نقدم طريقة جديدة للتسلسل. نمر عبر الكود سطرًا سطرًا حتى تتمكن 
من متابعة ما نفعله بالضبط. أولاً نقوم بإدخال بعض التعليمات البرمجية التي نحتاجها: 


from keras.models import Sequential 
from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D 


ثم نقوم بإنشاء نموذج تسلسلي فارغ: 

model = Sequential() 
نضيف طبقة واحدة إلى هذا النموذج الفارغ في كل مرة. الطبقة الأولى (إذاكنت تتذكر من الشكل‎ 
السابق) هي طبقة الالتفاف مع حجم فلتر 3:23 ۰ وحجم الخطوة 1 وعمق 32. الطبقة هي نفسها‎ 
ومع ذلك. دعنا‎ (CNN التکوینان ينطبقان على جميع طبقات‎ olia) "relu" والمنشط هو‎ 
نحدد الطبقة الأولى بالكود التالي:‎ 


model.add(Conv2D(32, (3, 3), activation='relu', padding='same', 
input shape-(32,32,3))) 


ما يفعله هذا الكود هو إضافة هذه الطبقة إلى نموذجنا المتسلسل الفارغ باستخدام الدالة 
model. add)‏ . الرقم الأول 326 يشير إلى عدد الفلاتر. الزوج التالي من الأرقام (3.3) يشير 
إلى عرض وحجم الفلتر. ثم نحدد التنشيط وهو 'relu‏ والطبقة .'same'‏ لاحظ أننا لم نحدد 
خطوة . هذا stride=1 oY‏ هي إعداد افتراضي ولسنا بحاجة إلى تحديده ما لم نرغب في 
تغييره. إذا كنت تتذكر ء فنحن بحاجة Cad‏ إلى تحديد حجم الإدخال لطبقتنا الأولى. لا تحتوي 
الطبقات اللاحقة على هذه المواصفات . حيث يمكنها استنتاج حجم الإدخال من حجم الإخراج 
للطبقة السابقة. تبدو الطبقة الثانية في الكود على هذا النحو (لا نحتاج إلى تحديد حجم الإدخال): 
model .add(Conv2D(32, (3, 3), activation='relu', padding='same'))‏ 
الطبقة التالية هي طبقة حد اقصى من التجميع بحجم تجميع 2 × 2 وخطوتين. الحجم الافتراضي 
لطبقة اقصى حد من التجميع هو 2 x‏ 2 . لذلك لا نحتاج إلى تحديد هذه الخطوة: 
model .add(MaxPooling2D(pool_size=(2, 2)))‏ 
أخيرًا ٠‏ نضيف طبقة الحذف العشوائي مع احتمال 0.25 لمنع :overfitting‏ 
model .add(Dropout(@. 25))‏ 
الآن قمنا بإنشاء أول أربع طبقات مع الكود. تبدو الطبقات الأربع التالية متشابهة حقا: 
model.add(Conv2D(64, (3, 3), activation='relu', padding='same'))‏ 


model.add(Conv2D(64, (3, 3), activation-'relu', padding-'same')) 
model .add(MaxPooling2D(pool_size=(2, 2))) 


الفصل الرابع : الشبكة العصبية الالتفافية 


model .add(Dropout(@. 25))‏ 
أخيرًا « نحتاج إلى برمجة الطبقة المتصلة بالكامل . وهو ما يشبه ما فعلناه في المثال في الفصل 
السابق. ومع ذلك . في هذه المرحلة ء يتم ترتیب الخلايا العصبية لدينا في مکعب بدلاً من صف. 
لوضع هذا الشكل الشبيه بالمكعب من الخلايا العصبية في صف واحد . يجب أن نقوم ul‏ 
بتسويته. نقوم بذلك عن طريق إضافة طبقة ‘Flatten‏ 
model .add(Flatten())‏ 
الآن . نحن بحاجة إلى إنشاء طبقة متصلة بالکامل بها 512 خلية عصبية ودالة التنشيط irelu‏ 
model.add(Dense(512, activation='relu'))‏ 
ثم نضيف bir‏ عشوائيًا آخر باحتمال 0.5 
model.add(Dropout(0.5))‏ 
أخيرًا ء قمنا بإنشاء طبقة متصلة بالكامل بها 10 خلايا عصبية ودالة التنشيط :softmax‏ 
model.add(Dense(10, activation='softmax'))‏ 
تم الانتهاء الآن من بناء معماريتنا. الآن . لرؤية ملخص للمعمارية الكاملة » نقوم بتشغيل الكود 
التالي: 
model. summary ()‏ 


Model: "sequential" 


Layer (type) Output Shape Param # 
convd (Conv2D) ^ (None, 32, 32, 32) 896 ×_ 
conv2d 1 (Conv2D) (None, 32, 32, 32) 9248 

max .pooling2d (MaxPooling2D) (None, 16, 16, 32) 0 
max_pooling2d_1 (MaxPooling2D) (None, 8, 8, 32) 0 
dropout (Dropout) (None, 8, 8, 32) 0 

flatten (Flatten) (None, 2048) 0 

dense (Dense) (None, 512) 1049088 
dropout_1 (Dropout) (None, 512) 0 

dense_1 (Dense) (None, 10) 5130 


Total params: 1,064,362 
Trainable params: 1,064,362 
Non-trainable params: 0 


بعد ذلك c‏ نقوم بتجميع النموذج باستخدام الاعدادات التالية: 


110061 ۰ compile(loss='categorical_crossentropy', 
optimizer='adam', 
metrics=['accuracy']) 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


تسمى دالة الخطاً التى نستخدمها فتة الانتروبيا المتقاطعة .'categorical crossentropy'‏ 
المحسن لدينا هنا هو adam‏ أخيرًا » نريد تتبع دقة نموذجنا. 
حان الوقت OW‏ لتشغيل برنامج تدريب النموذج: 


hist = model.fit(x_train, y_train_one_hot, 
batch_size=32, epochs=20, 
validation split-0.2) 


نقوم بتدريب نموذجنا بأحجام دفعات من 32 و 20 دورة. ومع ذلك ۰ هل لاحظت اختلافاً في 
الكود؟ نستخدم الإعداد 0.2 = You validation split‏ من validation data‏ باستخدام هذا 
الاختصار » لا نحتاج إلى تقسيم مجموعة البيانات الخاصة بنا إلى مجموعة تدريب ومجموعة 
العحقق من السا فی البدانة Nas‏ من لاف تحدد بساطة مقدار مجموغة cold‏ المستخدمة 
کیچ bd uiis‏ الصحة. في هذه الحالة ء يتم استخدام 20/ من مجموعة البیانات الخاصة 
نا کمجموعة فحقق. قم بتشفیل الخلية وستری آن النموذج Up‏ العدريب: 


Epoch 0 

1250/1250 [= J] - 27s 14ms/step 
val_accuracy: @.5885 
Epoch 2/20 
1250/1250 [= ل‎ - 175 14ms/step - loss: 1.1323 - accuracy: 0.6000 - val loss: 1.0689 - 
val accuracy: 0.6276 
Epoch 3/20 
1250/1250 [- ل‎ - 17s 13ms/step - loss: 0.9810 - accuracy: 0.6534 - val loss: 0.9494 - 
val accuracy: 0.6725 
Epoch 4/20 
1250/1250 [- ]- 175 14ms/step - loss: 0.8859 - accuracy: 0.6900 - val loss: 0.9151 - 
val accuracy: 0.6828 
Epoch 5/20 
1250/1250 [- J] - 18s 15ms/step - loss: 0.8015 - accuracy: 0.7171 - val loss: 0.9117 - 
val accuracy: 0.6802 
Epoch 6/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.7203 - accuracy: 0.7469 - val loss: 0.8959 - 
val accuracy: 0.6874 
Epoch 7/20 

1250/1250 [- ل‎ - 175 14ms/step - loss: 0.6486 - accuracy: 0.7709 - val loss: 0.8811 - 
val accuracy: 0.7066 
Epoch 8/20 
1250/1250 [- ]- 175 14ms/step - loss: 0.5960 - accuracy: 0.7902 - val loss: 0.9053 - 
val accuracy: 0.7055 
Epoch 9/20 
1250/1250 [- ل‎ - 17s 13ms/step - loss: 0.5312 - accuracy: 0.8129 - val loss: 0.9100 - 
val accuracy: 0.6982 
Epoch 10/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.4887 - accuracy: 0.8262 - val loss: 0.9183 - 
val accuracy: 0.7077 
Epoch 11/20 
1250/1250 [- ل‎ - 185 14ms/step - loss: 0.4483 - accuracy: 0.8415 - val loss: 0.9454 - 
val accuracy: 0.7083 
Epoch 12/20 
1250/1250 [-- ل‎ - 17s 13ms/step - loss: 0.4195 - accuracy: 0.8514 - val loss: 1.0072 - 
val accuracy: 0.7062 
Epoch 13/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.3889 - accuracy: 0.8625 - val loss: 0.9655 - 
val accuracy: 0.7089 
Epoch 14/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.3591 - accuracy: 0.8764 - val loss: 1.0041 - 
val accuracy: 0.7042 
Epoch 15/20 
1250/1250 [- ل‎ - 175 13ms/step - loss: 0.3372 - accuracy: 0.8814 - val loss: 1.0220 - 
val accuracy: 0.7133 
Epoch 16/20 
1250/1250 [- ل‎ - 185 14ms/step - loss: 0.3242 - accuracy: 0.8868 - val loss: 1.0927 - 
val accuracy: 0.7041 
Epoch 17/20 
1250/1250 [- ] - 23s 18ms/step - loss: 0.3053 - accuracy: 0.8925 - val loss: 1.0579 - 
val accuracy: 0.7046 
Epoch 18/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.2917 - accuracy: 0.8990 - val loss: 1.0833 - 
val accuracy: 0.7061 
Epoch 19/20 
1250/1250 [- ل‎ - 175 14ms/step - loss: 0.2825 - accuracy: 0.9014 - val loss: 1.0957 - 
val accuracy: 0.7165 

Epoch 20/20 


oss: 1.4824 - accuracy: 0.4623 - val loss: 1.1698 - 


الفصل الرابع : الشبكة العصبية الالتفافية 


1250/1250 ]==============================[ - 175 14ms/step - loss: 0.2700 - accuracy: 0.9064 - val loss: 1.0855 - 
val accuracy: 0.7131 


بعد الانتهاء من التدریب ‏ يمكننا استخدام هذا الکود ء الذي رأيناه في بناء شبكتنا العصبية الأولىء 
لتوضيح خطأ التدريب والتحقق من الصحة بالنسبة لعدد الدورات: 


plt.plot(hist.history['loss']) 
plt.plot(hist.history['val loss']) 
plt.title('Model loss') 

plt.ylabel('Loss') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'upper right') 
plt.show() 


Model loss 


— Train 
— Val 


7 T 
0.0 2.5 5.0 7.5 10.0 125 15.0 5 


plt.plot(hist.history['loss']) 
plt.plot(hist.history['val loss']) 
plt.title('Model loss') 

plt.ylabel('Loss') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'upper right') 
plt.show() 
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التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


كما يتضح « ان النموذج overfitting‏ في هذه المرحلة ء آوصي بالعودة وتجربة العديد من 
المعاملات مثل تغيير المعمارية أو تغيير عدد الدورات التدريبية لمعرفة ما إذا كان يمكنك 
الحصول على دقة val‏ أفضل. بمجرد أن تشعر بالرضا عن النموذج الخاص بك » يمكنك تقييمه 
في مجموعة الاختبار: 

model.evaluate(x test, y_test_one_hot)[1] 


313/313 [==============================) - 2s 5ms/step - loss: 1.1410 - accuracy: 0.6924 
0.6923999786376953 


كما يتضح . النموذج غير فعال للغاية. ومع ذلك . فهو يعمل بشكل أفضل من التخمين العشوائي. 
في هذه المرحلة ء قد ترغب في حفظ نموذجك المدرّب (بافتراض أنك تبني نموذجًا جيد 
الاداء مع ضبط دقيق للمعاملات الفائقة). يتم تخزين النموذج في ملف يسمى HDF5‏ (مع 
الامتداد 5). نحفظ نموذجنا بهذا السطر من التعليمات البرمجية: 
model.save('my_cifar1@_model.h5')‏ 
استخدم سطر الكود التالي هذا إذا كنت تريد تنزيل النموذج المحفوظ في المستقبل: 


from keras.models import load_model 
model = load_model('my_cifar10_model.h5') 


باختصار » أنشأنا أول شبكة CNN‏ لدينا لإنشاء مصنف للصور. للقيام بذلك . استخدمنا نموذج 
Keras Sequential‏ لتحديد البنية وتدريبها على مجموعات البيانات التى قمنا بمعالجتها 
بالفعل. لقد قمنا Caf‏ بحفظ نموذجنا حتى نتمكن من استخدامه dictos salia ead GY‏ 
الحاجة إلى إعادة تدريب النموذج. 

الآن بعد أن أصبح لدينا نموذج . دعنا نجربه على صورنا. للقيام بذلك . قم بتنزيل صورة (بناء 
على واحدة من فتات مجموعات البيانات العشر) من الإنترنت وضعها في نفس مجلد 
notebook‏ نستخدم صورة القطة أدناه: 


ملف الصورة هو ."cat-jpg”‏ نقرأ الآن ملف JPEG‏ هذا كمجموعة من قيم البكسل: 


my image = plt.imread("cat. jpg") 


الفصل الرابع : الشبكة العصبية الالتفافية 


أول شيء يتعين علينا القيام به هو تغيير حجم الصورة القطة لدينا حتى نتمكن من وضعها في 
نموذجنا (حجم الادخال 3 x 32 x‏ 32). بدلاً من برمجة دالة تغيير الحجم بأنفسنا ء Les‏ 
نستخدم حزمة تسمى "scikit-image"‏ لمساعدتنا في القيام بذلك: 


from skimage.transform import resize 
my_image_resized = resize(my_image, (32,32,3)) 


يمكننا رؤية صورتنا التي تم تغيير حجمها على النحو التالي: 


img = plt.imshow(my_image_resized) 


لاحظ أن حجم الصورة التي تم تغيير حجمها يحتوي على قيم بكسل تم قياسها بالفعل بين 0 و 
1 لذلك لا نحتاج إلى تطبيق خطوات المعالجة المسبقة التي قمنا بها سابقًا لصورة البرنامج 
التدريبي الخاصة بنا. ٠ o‏ باستخدام الكود model predict‏ ء نرى كيف سیبدو ناتج نموذجنا 
المدرب عند إعطائنا صورة قطة: 


import numpy as np 
probabilities = model.predict(np.array( [my_image_resized,] )) 


ناتج الكود أعلاه هو ناتج 10 LOE‏ عصبية مرتبطة بتوزيع الاحتمالات على الفئات. إذا قمنا 
بتشغيل الخلية ء سيكون لدینا: 

probabilities 

array([[2.6720341e-02, 3.1344647e-05, 1.5095539e-01, 3.8518414e-01, 


3.3354717e-03, 3.2324010e-01, 5.1648129e-02, 5.7933435e-02, 
9.2716294e-04, 2.4454062e-05]], dtype-float32) 


قم بتنفيذ مقتطف الكود التالي لقراءة توقعات النموذج بسهولة: 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


number. to class = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 
"horse', Ship, "trüuck'] 

index = np.argsort(probabilities[0, : ]) 

print("Most likely  class:", number to. class[index[9]], "--  Probability:", 
probabilities[0, index[9]]) 

print("Second most likely class:", number_to_class[index[8]], "-- Probability:", 
probabilities[0, index[8]]) 

print("Third most likely class:", number to class[index[7]], "-- Probability:", 
probabilities[0,index[7]]) 

print("Fourth most likely class:", number. to class[index[6]], "-- Probability:", 
probabilities[0, index[6]]) 

print("Fifth most likely class:", number to class[index[5]], "-- Probability:", 
probabilities[0, index[5]]) 


Most likely class: cat -- Probability: 0.31140402 

Second most likely class: horse -- Probability: 0.296455 
Third most likely class: dog -- Probability: 0.1401798 
Fourth most likely class: truck -- Probability: 0.12088975 
Fifth most likely class: frog -- Probability: 0.078746535 


كما ترى » توقع النموذج بدقة أن الصورة المدخلة كانت في الواقع صورة قطة. ومع ذلك . هذا 
ليس أفضل نموذج لدينا ودقته منخفضة جد . لذلك لا يجب أن تتوقع الكثير منه. يغطي هذا 
المثال أساسيات شبكات CNN‏ فقط في مجموعة بيانات بسيطة جدا. كتمرين ۰ يمكنك بناء 
نماذج أخرى لمجموعة البيانات هذه ومقارنة النتائج. 

خلاصة الفصل 

* تستخدم الشبكات العصبیة الالتفافية الالتفاف بدلاً من مضاعفة المصفوفة في طبقة واحدة 
على الأقل من طبقاتها. 

* يؤدي تحديد الميزات من خلال تطبيق الفلاتر إلى إنتاج خريطة الميزات. 

* يشار إلى طبقة الالتفاف Cat‏ باسم طبقة استخراج الميزات. لأنه يتم استخراج خصائص 
الصورة في هذه الطبقة. 


اختبار 


ما هي المعمارية العامة للشبكة الالتفافية؟ 

ما هي السمات المميزة الثلاثة للشبكات الالتفافية؟ 
ما هي أجزاء طبقة الالتفاف؟ 

ما هي فوائد استخدام الالتفاف؟ 

ما هو دور طبقة التجمیع في الشیکات الالتفافیة؟ 


حم ON‏ ل ص 


—— 
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التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


المقدمة 
تتلقی بنية الشبكة العصبية التي تمت مناقشتهاني الفصول السابقة مدخلات ذات حجم ثابت 
وتوفر مخرجات ذات حجم ثابت. يقدم لنا هذا الفصل مقدمة عن الشبكات العصبية المتكررة 
(Recurrent Neural Networks)‏ أو اختصارا .RNN‏ تساعدنا شبكات GRNN‏ 
التعامل مع التسلسلات متغيرة الطول من خلال تحديد حلقة التغذية الراجعة على هذه 
التسلسلات(60060665:). تجعل القدرة على معالجة تسلسل الإدخال المخصص شبكات 
RNN‏ قابلة للاستخدامنی مهام مثل نمذجة اللغة والتعرف على الكلام والمزيد.في الواقع» من 
الناحية النظریة يمكن تطبيق RNNs‏ على أي مشكلة لأنه ثبت آنها 'Turing-Complete‏ 
هذا يعني أنه من الناحية النظرية. يمكنهم محاكاة أي برنامج لا يستطيع الكمبيوتر العادي حسابه. 
على سبيل المثال» اقترح Google DeepMind‏ نموذجا يسمى آلات تورينج العصبية التي 
يمكن أن تعلمك كيفية تشغيل خوارزميات بسيطة مثل الفرز. 
ماهي الشبكة العصبية المتكررة؟ 
فى الفصل السابق. وصفنا بنية الشبكات العصبية الالتفافية التى تشكل الأساس للعديد من أنظمة 
i5)‏ الحاسوبية المتقدمة. ومع ذلك. فإننا لا ندرك العالم M‏ حولنا بالبصر وحده. على سبيل 
المثال» يلعب الصوت Cast‏ دورًا ege‏ جدا. وبشكل أكثر تحدیدا. نحب نحن البشر التواصل 
والتعبير عن الأفكار والأفكار المعقدة من خلال تسلسلات رمزية وتمثيلات مجردة. ومن ثم 
فمن المنطقي أننا نريد أن تكون الآلات قادرة على فهم المعلومات المتسلسلة. 

عندما يتم ترتيب البيانات بحيث يكون لكل قطعة نوع من العلاقة مع القطع التي تم إنشاؤها 
قبلها وبعدهاء يشار إليها باسم التسلسلات. الشبكات العصبية المتكررة هي نوع من الشبكات 
العصبية الاصطناعية المصممة لاكتشاف الأنماطفي البيانات المتسلسلة مثل النص المادة الوراثية 
والكتابة اليدوية والكلمات المنطوقة وبيانات السلاسل الزمنية وأسواق الأسهم وما إلى ذلك. 
الفكرة من وراء هذه الشبكات العصبية هي أنها تسمح للخلايا بالتعلم من الخلايا المرتبطة سابقا. 
يمكن القول إن هذه الخلايا لها "ذاكرة" بطريقة ما. ومن ثم فإنهم يبنون معرفة AST‏ تعقیدا من 
بيانات الإدخال. 

تشترك النماذج التي تمت دراستها في الفصول السابقة في شيء واحد. بعد الانتهاء من عملية 
التدریب ‏ يتم إصلاح الأوزان وتعتمد المخرجات على عينة الإدخال فقط. من الواضح أن هذا 
السلوك متوقع من المصنف c‏ ولكن هناك العديد من السيناريوهات التي يجب على المتنبئ فيها 
مراعاة محفوظات قيم الإدخال. السلسلة الزمنية هي مثال كلاسيكي على ذلك. لنفترض أن علينا 


1 Alex Graves and Greg Wayne and Ivo Danihelka (2014). "Neural Turing Machines". 
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توقع درجة حرارة الأسبوع المقبل. إذا حاولنا استخدام آخر قيمة معروفة ل x(t)‏ و MLP‏ مدرب 
للتنبؤ ب (1 + )> فلا یمکننا النظر في الظروف الزمنية مثل الموسم وتاريخ الموسم على مر 
السنین وما إلى ذلك. سيكون الانحدار قادرًا على ربط المخرجات التي تنتج أدنى متوسط للخطأء 
ولكن في المواقف الحقيقية . هذا لا يكفي. الطريقة المعقولة الوحيدة لحل هذه المشكلة هي 
تحديد بنية جديدة للخلايا العصبية الاصطناعية لتوفير ذاكرة لها. يظهر هذا المفهوم في الشكل 
أدناه: 


1 
yt ) 


(t+1) 
x 


+1 E 
xt) e 
Wn 


لم تعد الخلية العصبية وحدة حوسبة امامية التغذية تمامًا » حیث أن اتصالها الراجع يجبرها على 
تذكر ماضيها واستخدامها للتنبؤ بقيم جديدة. 


هيكل الشبكة العصبية المتكررة 


افترض شبكة عصبية تقليدية ء كما هو موضح في الشكا أدناه: 


| | 
2 


وج 


= 
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التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


لدينا عدد من المدخلات ,× . حيث تمثل ٤‏ خطوة زمنية أو تسلسل. لنفترض أن مدخلات t‏ 
المختلفة مستقلة عن بعضها البعض. يمكن كتابة ناتج الشبكة في کل Ne = f) St‏ 

فی RNNs‏ ۰ تنقل حلقة التغذية الراجعة معلومات الحالة الحالية إلى الحالة التالية .كما هو 
موضح في الإصدار المفتوح من الشبكة LS.‏ هو موضح آدناه.: 


: 2 
© © 3 


يمكن كتابة ناتج شبكة RNN‏ في کل he = f aca) x?) St‏ یتم إجراء نفس الشيء f‏ على 
كل عنصر من عناصر التسلسل . ويعتمد ناتج hy‏ على ناتج الحسابات السابقة. وبالتالي « على 
عكس الشبكات التقليدية . حيث تعتمد الحالة فقط على المدخلات الحالية (ووزن الشبكة) . 
هنا hy‏ هي دالة للإدخال الحالي بالإضافة إلى الحالة السابقةر-,/. يمكنك اعتبار hoa‏ بمثابة 
ملخص gd‏ مدخللات الشركة السابقة. 

بفضل بنية السلسلة هذه . أو بعبارة أخرى . التخزين الإضافي (الذاكرة) مما تم حسابه حتى 
الآن ء تم تحقيق نجاح كبير في استخدام RNN‏ في السلاسل الزمنیة والبيانات المتسلسلة. 


تحصل RNNs‏ على اسمها من هذا لأنها تطبق نفس الدالة بشكل متكرر على التسلسلات. 


تحتوي RNN‏ على ثلاث مجموعات من المعاملات (الوزن): 

* تا يحول الادخال ,2 إلى ۽۸ . 

W "‏ يحول الحالة السابقة وع إلى الحالة الحالية hi‏ 

٭ ۷ یعیّن الحالة الداخلية المحسوبة eum‏ ل hy‏ إلى الناتج /[ . 
تطبق U‏ و W‏ و ۷ التحویل الخطی على المدخلات المقابلة. الحالة الأساسية لمثل هذا التحویل 
هي مجموع اوزان مانعرفه. یمکننا الآن تحدید الحالة الداخلية ومخرجات الشبكة على النحو 
التالی: 

hy = f (hui + W + x, *U) 
Ye 2۷ 
دالة تنشيط غير خطية.‎ fit 


الفصل الرابع : الشبكة العصبية المتكررة 


لاحظ أنه في RNN‏ ۰ تعتمد كل حالة على جميع الحسابات السابقة من خلال هذه العلاقة 
التكرارية. من الدلالات المهمة أن RNN5‏ لها ذاكرة بمرور الوقت  ROVE oM‏ تحتوي على 
معلومات تستند إلى الخطوات السابقة. من الناحية النظرية . يمكن RNNsS‏ تخزين المعلومات 
طالما رغبوا في ذلك. . لکن في الممارسة العملية يمكنهم فقط النظر إلى الوراء بضع خطوات. 


انواع معماریات RNN‏ 


نظرًا oY‏ و13۳ لا تقتصر على معالجة المدخلات ذات الحجم الثابت ۰ فهي تتضمن بنی 
مختلفة: 

* واحد لواحد: كما یمکن رژیته في الشکل المقابل . في هذه البنية » يتم تعيين © 
وحدة ادخال RNN‏ إلى وحدة مخفية ووحدة |خراج. هذه البنية هي عملية 
متسلسلة مثل الشبکات العصبية آمامية التغذية والشبکات العصبية الالتفافية. أ 
مثال على هذه العملية هو تصنيف الصور. M‏ 

* واحد إلى متعدد: كما يتضح من الشكل أدناه . في e e e‏ 
هذه RE‏ ء يتم تعيين وحدة إدخال RNN‏ إلى 
عدة وحدات مخفية وعدة وحدات إخراج. المثال | | ۱ 


ERERER rn 
5 الادخال صورة وتعیینها إلى عدة کلمات.‎ 


" متعدد إلى واحد: كما يتضح من الشكل © 
المقابل ء في هذه البنية . يتم تعيين عدة نے 
وحدات إدخال RINN‏ إلى عدة وحدات | 


مخفية ووحدة إخراج واحدة. مثال عملي 

EH EH EN o 
۱ | | dab (ats .(Sentiment analysis) 
الإدخال إشارات متعددة من كلمات الجملة‎ 


سال اشن لي یا © تا 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


" متعدد لمتعدد: كما يتضح من الشكل المقابل 
> في هذه البنية ء یتم تعيين العديد من وحدات 


إدخال RNN‏ إلى عدة وحدات مخفية وعدة 


وحدات إخراج. مثال عملي على هذه البنية هو 
جو نس عو پر EH EE EE‏ 
الترجمة AY‏ تستقبل طبقة الادخال عدة 5 


أحرف من كلمات اللغة المصدر وتربطھا ۱ | ۱ 
بأحرف الكلمات في اللغة الهدف. O 0 O‏ 
توليد نص باستخدام RNN‏ 


تُستخدم RNNs‏ بشکل شائع كنماذج لغوية ¿(language models)‏ مجال معالجة اللغة 
الطبيعية (natural language processing)‏ نعتزم العمل على dal‏ مثيرة للاهتمام uus‏ لنمذجة 
توليد النصء حيث تُستخدم نماذج RNN‏ لتعلم التسلسلات النصية لمجال معين ثم لإنشاء 
تسلسل نصي جديد GLS‏ ومعقول‌في المجال. يمكن لمولّد النص المستند إلى RNN‏ أن يأخذ 
أي نص إدخال» كالروايات مثل هاري بوتر وأشعار شكسبير وسيناريوهات لأفلام مثل حرب 
النجوم. وإنتاج قصائد شكسبير وسيناريوهات حرب النجوم. إذا كان النموذج مدربًا he‏ فیجب 
أن يكون التركيب مقبولًا وقراءته مشابهة للنص الأصلي.في هذا الجزء نستخدم رواية "الحرب 
والسلام' للمؤلف الروسي ليو تولستوي کمثال. ومع ذلك. يمكنك استخدام أي من كتبك 
المفضلة کمدخلات تدريبية. يعد مشروع جوتنبرج (www.gutenberg.org)‏ مصدرًا رائعًا 
لذلك. حيث نفد طباعة ما يزيد عن 57000 كتاب رائع مجانا. 
أولا عليك تحميل ملف warpeace input.txt‏ مباشرة من الرابط: 
https://cs.stanford.edu/people/karpathy/char-rnn/warpeace_input.txt‏ 
من ناحية آخری. یمکننا تنزيله من مشروع جوتنبرج. 
https://www.gutenberg.org/ebooks/2600‏ 
نحمل الملف. لكننا بحاجة إلى إجراء بعض التنظيف. ثم نقرأ الملف ونحول النص إلى أحرف 
صغيرة ونلقي نظرة سريعة عليه بطباعة أول 100 حرف.: 
training_file = 'warpeace_input.txt'‏ 
raw_text = open(training_file, 'r').read()‏ 


raw text = raw text.lower() 
raw text[:100] 


'ufeff"well, prince, so genoa and lucca are now just family estates 
of thenbuonapartes. but i warn you, i' 


OVI‏ نحن بحاجة إلى حساب عدد الأحرف: 


n chars = len(raw text) 


الفصل الرابع : الشبكة العصبية المتكررة 


print('Total characters: {}'.format(n_chars)) 
Total characters: 3196213 
بعد ذلك. یمکننا الحصول على أحرف وأحجام كلمات فريدة:‎ 
chars = sorted(list(set(raw text))) 


n_vocab = len(chars) 
print('Total vocabulary (unique characters): {}'.format(n_vocab) ) 


print (chars) 

Total vocabulary (unique characters): 7 

] ۲۱۳ i a yr موس‎ MU "Cs ')', ne ML Eum 1 7 0 
ات‎ PAR او‎ va. "^ "6", 7", "8^; PM UP E =, E 
"ars 'b', "ets اق"‎ "gs ات‎ pm 'h', 'i', و۷ کو‎ TS 'm', 
'n', tots 'p', "d 'r', "St. "p^; "^; EAD 'w', و‎ 'y', وا‎ 
"ars "ars "et. "et. 'Nufeff' ] 


الآن لدينا مجموعة بيانات تدريبية خام تتكون من آکثر من 3 ملايين حرف و57 حرفا فریدا. 
ولكن كيف يمكننا تغذيته لنموذج GIRNN‏ معمارية متعدد لمتعدد. يأخذ النموذج المتتاليات 
وينتج المتتالياتفي وقت واحد.في حالتناء یمکننا تغذية النموذج بتسلسلات أحرف ثابتة الطول. 
طول متتاليات الإخراج يساوي متتاليات الادخال. ويتم نقل حرف واحد من تسلسلات الادخال 
الخاصة بهم. لنفترض أننا قمنا بتعیین طول التسلسل على 5 لكلمة learning‏ یمکننا OV‏ إنشاء 
عينة تدريبية مع مدخلات learn‏ ومخرجات .earni‏ یمکننا توضيح هذا الإجراءنی الشبكة على 
النحو التالي: 


— 


T LL t 
سب«‎ i 
o0 © © © 0 


لقد قمنا للتو بعمل تدريبي. بالنسبة لمجموعة البرامج التدريبية بأكملهاء یمکننا تقسيم بيانات 
النص الخام إلى تسلسلات متساوية الطول. على سبيل المثال 100. كل تسلسل من آحرف 
الإدخال هو مثال تدريب. ثم نقوم بتحليل بيانات النص الخام بنفس الطريقة. ولكن هذه المرة 
نبدأ بالحرف الثاني. کل تسلسل ناتج تم الحصول عليه هو عينة تدريب. على سبيل المثال بالنظر 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


إلى النص الخام ل deep learning architectures‏ والرقم 5 بطول التسلسلء یمکننا بناء 
خمسة أمثلة تدريبية على النحو التالى: 


المخرجات 
eepal‏ 


earni 
ng_ar 
chite 


cture 


فا بغر SG‏ 
نظرا لان نماذج الشركة العصبية لا تتلقی سوی البیانات الرقمية. بتم تمثیل تسلسل الادخال 
والإخراج لاأحرف بواسطة متجهات 5 .one-hot x»‏ نقوم بانشاء قاموس عن طریق تعیین 57 
É >‏ للمؤشرات من 0 إلى 56: 
index to char = dict((i, c) for i, c in enumerate(chars))‏ 


char. to index = dict((c, i) for i, c in enumerate(chars)) 
print(char. to. index) 


على سبيل المثال يتم تحويل الحرف © إلى متجه بطول 57 بقيمة T‏ الفهرس 30 وجميع قيمه 
الأخرى هي 0 (لقد رأیت كيف تم تشفير هذافي الفصل السابق). بمجرد أن يصبح جدول البحث 
عن الاحرف Gale‏ يمكننا إنشاء مجموعة بيانات التدريب على النحو التالى: 

import numpy as np 


seq_length = 100 
n_seq = int(n_chars / seq_length) 


من خلال ضبط طول التسلسل على 100 سيكون لدینا عينة seq‏ . بعد ذلك. نقوم بتهيئة 
مدخلات ومخرجات التدريب: 


np.zeros((n_seq, seg length, n vocab)) 
np.zeros((n seq, seg length, n vocab)) 


لاحظ أن طول التسلسل كما يلي: 

(رقم all‏ طول التسلسل, أبعاد الميزة) 
مثل هذا النموذج مطلوب. UM‏ نعتزم استخدام Keras‏ لتعليم نموذج RNIN‏ بعد ذلك تقوم 
بإنشاء كل m seq Jte‏ 


for i in range(n. seq): 
x sequence = raw text[i * seq length : (i + 1) * seq length] 
x. sequence, ohe = np.zeros((seq length, n. vocab)) 
for j in range(seq length): 
char = x. sequence[ j] 
index = char. to index[char] 
x sequence ohe[j [index] = 1. 
XLi] = x sequence ohe 


الفصل الرابع: الشبكة العصبية المتكررة 


y_sequence = raw_text[i * seq_length + 1 : (i + 1) * seq_length + 1] 
y_sequence_ohe = np.zeros((seq length, n. vocab)) 
for j in range(seq length): 
char = y. sequence[ j ] 
index = char. to index[char] 
y-sequence ohe[j]Lindex] = 1. 
Y[i] = y. sequence ohe 


إذاكنت ترغبفي 05( يمكنك رؤية المصفوفة بتنفيذ الخلايا أدناه: 
X. shape‏ 
)57 ,100 ,31962( 
Y. shape‏ 
)57 ,100 ,31962( 
حتى الآن» قمنا بإعداد مجموعة بيانات التدريب وحان الوقت OW‏ لبناء نموذج RNN‏ أدخل 
VI‏ جميع الوحدات الضرورية: 


from keras.models import Sequential 

from keras.layers.core import Dense, Activation, Dropout 
from keras.layers.recurrent import SimpleRNN 

from keras.layers.wrappers import TimeDistributed 

from keras import optimizers 

from tensorflow import keras 


الآنء نحدد المعاملات الفائقة بمافي ذلك حجم الدفعة وعدد الخلايا العصبية. وعدد الطبقات. 
واحتمال الحذف العشوائى. وعدد الدورات: 


batch_size = 0 


n_layer = 2 
hidden_units = 800 
n epoch = 300 
dropout - 0.3 


ثم نقوم بإنشاء الشب لشکة: 


model = Sequential() 
model.add(SimpleRNN(hidden units, activation='relu', input_shape=(None, 
n_vocab), return sequences-True)) 
model.add(Dropout(dropout)) 
for i in range(n layer - 1): 

model.add(SimpleRNN(hidden units, activation-'relu', 
return sequences-True)) 

model.add(Dropout(dropout)) 
model.add(TimeDistributed(Dense(n vocab))) 
model.add(Activation('softmax')) 


هناك بعض الأشياء التي يجب وضعهافي الاعتبار بشأن النموذج الذي أنشأناه: 
:return_sequences=True ®‏ يصبح ناتج طبقات العودة o‏ بنية كمتعدد 
لمتعدد تجعل ذلك ممکناً . كما أردنا أن يكون. خلاف ذلك. يصبح متعدد إلى واحد 
وسيكون العنصر الأخير هو الناتج. 
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:TimeDistributed "‏ نظرًا oY‏ إخراج طبقات العودة عبارة عن تسلسل » فان الطبقة 
التالية هی طبقة متصلة كاملة ولا تتلقى مدخلات متتالية. يتم استخدام 
TimeDistributed‏ لتجاوز هذا. 


optimizer = keras.optimizers.RMSprop(learning rate-0.001, rho=0.9, 
epsilon-1e-08, decay-0.0) 


بإضافة [UTE‏ إنتروبيا متعددة الطبقات qe» «" categorical crossentropy'‏ من بناء نموذجنا 
وأخيراً نقوم بتجميع النموذج: 

model.compile(loss- "categorical crossentropy", optimizer-optimizer) 
باستخدام الکود التالي يمكننا إلقاء نظرة على ملخص النموذج:‎ 


model .summary() 


Layer (type) Output Shape Param # 
“simple_rnn_4 (SimpleRNN) (None, None, 800) 686400 
dropout_4 (Dropout) (None, None, 800) 0 
simple_rnn_5 (SimpleRNN) (None, None, 800) 1280800 
dropout_5 (Dropout) (None, None, 800) 0 
2 EE (TimeDis (None, None, 57) 45657 
activation_2 (Activation) (None, None, 57) 0 

Total params: 2,012,857 
Trainable params: 2,012,857 


Non-trainable params: 0 

لدينا أكثر من 2 مليون معامل للتدريب. ولكن قبل بدء عملية التدريب الطويلةء من الممارسات 

الجيدة إعداد بعض عمليات الاسترجاع callback‏ لتتبع الإحصائيات والحالة الداخلية للنموذج 
أثناء التدريب. تشمل دوال callback‏ ما يلى: 


* نقطة التحقق (checkpoint)‏ النموذج c‏ والتي تخزن النموذج بعد كل فترة حتى نتمكن 
من تحميل أحدث نموذج محفوظ واستثناف التدريب من هناك في حالة التوقف غير 
المتوقع. 

* التوقف المبكر. والذي يوقف التدريب عندما لا تتحسن دالة الخطأ. 

* مراجعة نتائج توليد النص بشكل منتظم. نريد أن نرى مدى معقولية النص الناتج OY‏ 
عيوب التدريب ليست ملموسة بما فيه الكفاية. 

يتم تعريف أو تهيئة هذه الدوال على النحو التالي: 
from keras.callbacks import Callback, ModelCheckpoint, 8۵‏ 


filepath-"weights/weights layer. *d hidden. Xd. epoch. (epoch:03d]. loss (loss 
s - 0٤ 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


checkpoint = ModelCheckpoint(filepath, monitor='loss', verbose=1, 
save best only-True, mode='min' ) 


ie‏ تحزين ی الملف مع رق الاو اھ رت رة اسطریب تراقب 
Casi‏ اخطاء الاعتمادفي 2 نفس الوقت لمعرفة ما إذا كان تقليل الاخطاء سيتوقف لمدة 50 فترة 
متتالية: 


early stop = EarlyStopping(monitor-'loss', min delta-0, patience-50, 
verbose-1, mode-'min') 


بعد ذلك. نحتاج إلى callback‏ لمراقبة الجودة. نکتب Vol‏ دالة مساعدة تولد نصا بأي طول Gi‏ 
لنموذج RNN‏ الخاص بنا: 


def generate_text(model, gen_length, n_vocab, index_to_char): 


Generating text using the RNN model 

@param model: current RNN model 

@param gen_length: number of characters we want to generate 
@param n_vocab: number of unique characters 

@param index_to_char: index to character mapping 

Greturn: 


# Start with a randomly picked character 
index = np.random. randint(n_vocab) 
y_char = [index_to_char[index]] 
X = np.zeros((1, gen_length, n_vocab)) 
for i in range(gen_length): 
X[0, i, index] = 1. 
indices = np.argmax(model.predict(X[:, max(0, i - 99):i + 1, :D[0], 1) 
index - indices[-1] 
y_char. append(index_to_char[index]) 
return ('').join(y. char) 


تبدأ هذه الدالة بحرف تم اختياره عشوائيًا. يتنباً نموذج الادخال بعد ذلك JS‏ حرف من أحرف 
gen length-1‏ المتبقية FL)‏ على الأحرف التي تم إنشاؤها مسبقاً والتي يصل طولها إلى 100 
(طول التسلسل). یمکننا OW‏ تحديد فئة callback‏ تقوم بإنشاء نص لكل فترة N‏ 


class ResultChecker (Callback): 
def __init__(self, model, N, gen_length): 
self.model = model 
self .N = 
self.gen_length = gen_length 


def on_epoch_end(self, _epoch, logs={}): 
if epoch % self. = 0: 


result = penerate tenet oly mde self.gen length, n vocab, 
index to. char) 


print('NnMy War and Peace:\n' + result) 
الآن بعد أن أصبحت جميع المكونات جاهزة, نبداً بتدريب النموذج:‎ 


model.fit(X, ,لا‎ batch_size=batch_size, verbose=1, epochs=n_epoch, 
callbacks=[ResultChecker(model, 10, 200), checkpoint, early_stop]) 


يكتب المولد 200 b>‏ لكل 10 فترات. النتائج التالية خاصة بالفترات 1 و11 و51 1015 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


Epoch 1: 


Epoch 1/300 
8000/31962 [==== 
31962/31962 [=== 
My War and Peace: 

5 the count of the stord and the stord and the stord and the stord and the 
stord and the stord and the stord and the stord and the stord and the stord 
and the and the stord and the stord and the stord 

Epoch 00001: loss improved from inf to 2.19552, saving model to 
weights/weights_epoch_00@1_loss_2.19552.hdf5 


ETA: 51s - loss: 2.8891‏ - ل 
67s 2ms/step - loss: 2.1955‏ - ل 


Epoch 11: 

Epoch 11/300 

1800/31962... ھی‎ sas ca RET Wu Re ees RR VEN ل‎ - ETA: 1:26 - loss: 1.2321 
31962/31962 [==============================] - 665 2ms/step - loss: 1.2493 


My War and Peace: 

?" said the countess was a strange the same time the countess was already 
been and said that he was so strange to the countess was already been and 
the same time the countess was already been and said 

Epoch 00011: loss improved from 1.26144 to 1.24933, saving model to 
weights/weights  epoch 011. loss, 1.2493.hdf 5 


Epoch 51: 


Epoch 51/300 

31962/31962 [==============================) - 66s 2ms/step - loss: 1.1562 
My War and Peace: 

!!CDP!E.agrave!! to see him and the same thing is the same thing to him and 
the same thing the same thing is the same thing to him and the sam thing 
the same thing is the same thing to him and the same thing the sam 

Epoch 00051: loss did not improve from 1.14279 


Epoch 101: 


Epoch 101/300 

31962/31962 [==============================] - 67s 2ms/step - loss: 1.1736 
My War and Peace: 

= the same thing is to be a soldier in the same way to the soldiers and the 
same thing is the same to me to see him and the same thing is the same to 
me to see him and the same thing is the same to me 

Epoch 00101: loss did not improve from 1.11891 


توقف التدريبفي وقت مبكر من الدورة 203: 


Epoch 00203: loss did not improve from 1.10864 
Epoch 00203: early stopping 


يولد النموذج ges‏ التاليفي الفترة 2151 


which was a strange and serious expression of his face and shouting and said 
that the countess was standing beside him. "what a battle is a strange and 
serious and strange and so that the countess was 


الفصل الرابع : الشبكة العصبية المتكررة 


To‏ "الحرب والسلام" الخاصة بنا جيداً إلى حد ما. ومع ذلك قد تتساءل عما إذا كان بإمكاننا 
القيام بعمل أفضل من خلال تغيير المعاملاتنی نموذج RNN‏ هذا؟ الجواب نعم» لکن الأمر لا 
يستحق ذلك. OY‏ تدريب نموذج RNN‏ لحل المشكلات التي تتطلب تعلم الاعتماد على المدى 
الطويل لیس فعالا للغاية. تم تصميم الهياكل مثل GRU, LSTM‏ خصيصا لحل هذه المشكلة. 
LSTM‏ 
من الناحية النظريةء يمكن ل RININS‏ البسيطة تعلم التبعيات طويلة المدی ولكنفي الممارسة 
العملیق بسبب مشكلة تلاشي التدرج. فإنها تقتصر على تعلم التبعيات قصيرة المدى. لمواجهة 
هذا القید. تم تقديم شبكة الذاكرة طويلة المدی (Long short term memory)‏ او 
(LSTM)‏ يمكن LSTM J‏ تكوين تبعيات طويلة المدى بسبب وجود خلية ذاكرة خاصةفي 
هيكلها. 

الفكرة الأساسية ل LSTM‏ هي خلية الحالة (cell state)‏ التي يمكن فیها ALS‏ المعلومات 
أو حذفها بشكل صريح. تظهر خلية الحالة هذه للوقت t‏ ك Cy‏ في الشكل 1-5. 


ft = o(Wrhr-1 + مدہلا‎ + bp) 

it = o(Wih; 4 + لا‎ + bj) 

a, = tanh(W,hy_1 + Ucxt + bf) 
or = o(W, ht. + Uox, + bo) 

Ce = ft * Cr-1 F it * Oy 

h, = o, * tanh (Cr) 


شكل 1-5. معمارية LSTM‏ 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


لا يمكن تغییر خلية حالة LSTM‏ إلا عن طريق بوابات معينة يتم من خلالها نقل المعلومات. 
يتكون LSTM‏ النموذجي من ثلاث بوابات: بوابة النسيان (]) وبوابة SEY‏ ©( وبوابة 
الإخراج )0(. 

البوابة الأولىني LSTM‏ هي بوابة النسيان. تقرر هذه البوابة ما إذا كنا نريد مسح خلية الحالة 
أم لا. يعتمد قرار البوابة المنسية على المخرجات السابقة Pa‏ والمدخلات الحالية Xp‏ تستخدم 
4 لتوليد إخراج بين صفر وواحد لكل عنصرفي خلية الحالة. يتم تنفيذ الضرب بين مخرج 
Aly‏ النسيان وخلية الحالة. تعني قيمة واحدفي مخرج بوابة النسيان أن معلومات العنصر مخزنة 
بالکامل‌ني خلية الحالة.في المقابل. الصفر يعنى النسيان الکامل للمعلومات‌في عنصر خلية الحالة. 
هذا یعنی أن LSTM‏ يمكنها إزالة cola fie‏ خی نات الصلة من متجه خلية الحالة الخاص بها. 
معادلة » ابة النسیان كالتالي: 

ft = o(Wrhr-1 + Ux, + bp) 

تقرر البوابة التالية (بوابة الإدخال) إضافة معلومات جديدة إلى خلية الذاكرة. یتم ذلك في 
جزأين: تحديد القيم المراد تحديثها ثم إنشاء القيم المراد تحديثها. يتم استخدام المتجه ig‏ أولا 
لتحديد قيم المرشحين الجدد المحتملين لتضمينها في خلية الحالة. يحتوي متجه المرشح 
Cala,‏ على مصفوفة وزن خاصة به ويستخدم الحالة والمدخلات المخفية السابقة لتشكيل متجه 
بأبعاد مماثلة لخلية الحالة. لإنشاء هذا المتجه المرشح » يتم استخدام دالة tanh‏ كدالة غير خطية. 
تظهر هذه العملية فى المعادلات التالية: 

bi) ۱‏ + عدرلا + is = o(W;he-1‏ 
bf)‏ + ععدءلا + a; = tanh(W,hy_1‏ 
تحدد Aly‏ النسيان LAS‏ تحديث خلية الحالةفي كل خطوة زمنية. يتم تحديث خلية الحالةفي 
خطوة زمنية عبر المعادلة التالية: 
عه * Ct = fe * Cra tip‏ 

البوابة الأخيرة (بوابة الإخراج) تقرر ما هو الاخراج. الناتج النهائي لخلية LSTM‏ هو الحالة 
المخفية Ay‏ بوابة الإخراج تأخذ وم و ع كمدخل. أولاً تستخدم sigmoid‏ لحساب المتجه 
بقيم بين صفر وواحد لتحديد قيم خلية الحالةفي الخطوة الزمنية. ثم قمنا بتعيين قيمة خلية الحالة 
إلى طبقة tanh‏ لمضاعفة قيمتها أخيرًا بمخرجات الطبقة السابقة «sigmoid‏ بحيث تتم مشاركة 
الأجزاء المرغوبةني الإخراج. يعني الإخراج 0 أن AES‏ الخلية لا تنتج أي معلومات. بینما يعني 
الإخراج 1 أن الذاكرة الكاملة لكتلة الخلية يتم نقلها إلى إخراج الخلية. تظهر المعادلات التالية 
هذا الاتجاه: 


Ort = o(Woht-1 + UoXt + bo) 


الفصل الرابع : الشبكة العصبية المتكررة 


hi = o, * tanh (Cer) 
من تلاشي التدرج؟ لاحظ أنه إذا كانت بوابة النسيان 1 وكانت‎ LSTM الآن كيف تحمينا‎ 
بوابة الإدخال 0ء فسيتم نسخ حالة الخلية بالضبط خطوة بخطوة. فقط بوابة النسيان يمكنها محو‎ 
ذاكرة الخلية تمامًا. نتيجة لذلك. يمكن أن تظل الذاكرة دون تغيير لفترة طويلة.‎ 
بمرور الوقتفي الشكل آدناه:‎ LSTM فتح‎ LAS عملیّاء يتم عرض‎ 


الذاكرة 4.2 


| 


في البدايةء يتم إعطاء قيمة 4.2 للشبكة كمدخلات؛ تم ضبط بوابة الإدخال على 1ء لذلك يتم 
حفظ القيمة الكاملة. ثم بالنسبة للخطوتين التالیتین. يتم ضبط بوابة النسيان على 1. لذلك يتم 
تخزين جميع المعلومات أثناء هذه الخطوات ولا تتم إضافة أي معلومات جديدةء لأن البوابات 
مضبوطة على 0. أخيراء یتم ضبط بوابة الإخراج على 1 ويتم إنشاء 4.2 وتبقى دون تغيير. 


توليد نص باستخدام LSTM‏ 


فی مولد النص المستند إلى LSTM‏ قمنا بزيادة طول التسلسل إلى 160 حرف مقارنة بالمثال 
السابق. ومن ثم قمنا باعادة ely‏ مجموعات التدریب X‏ و Y‏ بالقيمة الجديدة SEQ LENGTH‏ 
0 <: 


seq_length = 0 
n_seq = int(n_chars / seq_length) 


np.zeros((n seq, seq length, n vocab)) 
np.zeros((n seq, seq length, n vocab)) 


X= 
Y= 
for i in range(n_seq): 
x sequence = raw text[i * seq length : (i + 1) * seq length] 
x sequence ohe = np.zeros((seq length, n. vocab)) 
for j in range(seq length): 
char = x_sequence[j] 
index = char. to index[char] 
x sequence ohe[j ]Lindex] = 1. 
XLi] = x sequence ohe 
y_sequence = raw text[i * seg length + 1 : (i + 1) * seg length + 1] 
y_sequence_ohe = np.zeros((seq. length, n. vocab)) 
for j in range(seq . length): 
char = y. sequence[ j] 
index - char. to index[char] 
y_sequence_ohe[j ]Lindex] = 1. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


y_sequence_ohe‏ = [1]لا 
مقارنةً بنموذج RNN‏ السابق. نستخدم نموذجًا بطبقتين متكررتين تحتويان على 800 خلية 
عصبية وحذف عشوائي باحتمال 0.4: 


from keras.layers.recurrent import LSTM 
batch_size = 100 


n_layer = 2 
hidden_units = 800 
n_epoch= 300 


dropout = 4 


model = Sequential() 
model.add(LSTM(hidden units, input_shape=(None, n_vocab), 
return_sequences=True) ) 
model .add(Dropout (dropout) ( 
for i in range(n_layer - 1): 
model.add(LSTM(hidden units, return_sequences=True) ) 
model .add(Dropout (dropout ) ) 
model.add(TimeDistributed(Dense(n. vocab))) 
model.add(Activation('softmax')) 


بالنسبة للمحسن. نستخدم <RMSprop‏ بمعدل تعلم 0.001: 


optimizer = keras.optimizers.RMSprop(learning_rate=0.001, rho=0.9, 
epsilon-1e-08, decay-0.0) 


model.compile(loss- "categorical crossentropy", optimizer-optimizer) 
الذي قمنا ببناته للتو:‎ LSTM دعونا نلخص نموذج‎ 


model.summary() 


activation 1 (Activation) (None, None, 57) 0 


Total params: 7,914,457 
Trainable params: 7,914,457 
Non-trainable params: 0 


يوجد حوالي 8 ملايين معامل للتدریب. وهو ما يقرب من أربعة أضعاف نموذج RNN‏ السابق. 
لنبدأ التدريب: 


model.fit(X, ,لا‎ batch_size=batch_size, verbose=1, epochs=n_epoch, 
callbacks=[ResultChecker(model, 10, 200), checkpoint, early_stop]) 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


يكتب المولد Cai‏ مكونًا من 500 حرف لكل 10 دورات. النتائج التالية خاصة بالدورات 151 


و201 و251: 
Epoch 151:‏ 

Epoch 151/300 
19976/19976 السس سس سس‎ - 250s 12ms/step = loss: 
0.7300 


My War and Peace: 

ing to the countess. "i have nothing to do with him and i have nothing to 
do with the general," said prince andrew. 

"i am so sorry for the princess, i am so since he will not be able to say 
anything. i saw him long ago. i am so sincerely that i am not to blame for 
it. i am sure that something is so much talk about the emperor alexander's 
personal attention." 

"why do you say that?" and she recognized in his son's presence. 

"well, and how is she?" asked pierre. 

"the prince is very good to make 


Epoch 00151: loss improved from 0.73175 to 0.73003, saving model to 
weights/weights  epoch. 151. loss, 0.7300. hdf 5 


Epoch 201: 


Epoch 201/300 

19976/19976 | - 248s 12ms/step - loss: 
0.6794 

My War and Peace: 

was all the same to him. he received a story proved that the count had not 
yet seen the countess and the other and asked to be able to start a tender 
man than the world. she was not a family affair and was at the same time as 
in the same way. a few minutes later the count had been at home with his 
smile and said: 

"i am so glad! well, what does that mean? you will see that you are always 
the same." 

"you know i have not come to the conclusion that i should like to 

send my private result. the prin 


Epoch 00201: loss improved from 0.68000 to 0.67937, saving model to 
weights/weights. epoch. 151. loss. 6 5 


Epoch 251: 


Epoch 251/300 

19976/19976 ج5 ےچ ہت سس جا‎ < [ - 249s 12ms/step - loss: 
0.6369 

My War and Peace: 

nd the countess was sitting in a single look on 

her face. 

"why should you be ashamed?" 

"why do you say that?" said princess mary. "why didn't you say a word of 
this?" said prince andrew with a smile. 

"you would not like that for my sake, prince vasili's son, have you seen 
the rest of the two?" 

"well, i am suffering," replied the princess with a sigh. "well, what a 
delightful norse?" he shouted. 

the convoy and driving away the flames of the battalions of the first 
day of the orthodox russian 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


Epoch 00251: loss improved from 0.63715 to 0.63689, saving model to 
weights/weights. epoch. 251. loss. 0.6368.hdf 5 


آخیرّا . في الدورة 300 ۰ توقف التدريب عند الخطأ 0.6001 


بفضل 2 بنية lr Ad a « LSTM‏ قصة أكثر واقعية وإثارة للاهتمام عن "الحرب 
والسلام. بالإضافة إلى ذلك » لا تقتصر شبكات RNN LSTM‏ على تولید الأحرف للنص. 


يمكنهم التعلم من أي بيانات نصية » مثل HTML‏ و LaTex‏ وما إلى ذلك. 
تصنیف النص متعدد العلامات باستخدام 1.510۷ 


في هذا القسم. سنشرح كيفية إنشاء نموذج تصنيف نص بمخرجات متعددة. سنقوم بتطوير 
نموذج تصنيف النص الذي يحلل ELS‏ نصیّا ويتنباً بالعديد من العلامات المتعلقة بالتعليق. 

تحتوي مجموعة البيانات المستخدمةفي التدريب على ست علامات إخراج لكل تعليق: «toxic‏ 
identity hate; insult «threat «obscene «severe. toxic‏ يمكن أن ينتمى التعليق إلى كل هذه 
الفئات أو الفئات الفرعية لهذه الفغات. مما يجعله مسئلة تصنيف ide‏ العلامات. يمكنك 
تنزيل مجموعة البيانات هذه من موقع ويب Kaggle!‏ هذا.ني هذا المثال. سنستخدم ملف 
۷ فقط. 

Yi‏ ندخل المکتبات المطلوبة ونحمّل مجموعة البیانات. الکود التالى یدخل المکتبات 
المطلوبة: ۱ 


from numpy import array 

from keras.preprocessing.text import one_hot 

from keras.preprocessing.sequence import pad_sequences 
from keras.models import Sequential 

from keras.layers.core import Activation, Dropout, Dense 
from keras.layers import Flatten, LSTM 

from keras.layers import GlobalMaxPooling1D 

from keras.models import Model 

from keras.layers.embeddings import Embedding 

from sklearn.model_selection import train_test_split 
from keras.preprocessing.text import Tokenizer 

from keras.layers import Input 

from keras.layers.merge import Concatenate 

import pandas as pd 

import numpy as np 

import re 
import matplotlib.pyplot as plt 


الآن قم بتحميل مجموعة البيانات: 


toxic comments = pd.read_csv("train.csv") 


print (toxic_comments. shape) 


(159571, 8) 


1 https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/overview 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


كما یتضح. تحتوي مجموعة البيانات على 159.571 سجلا و8 أعمدة. 
باستخدام الأمر التالي یمکنك رژية بعض الأمثلة على بیانات الاخراج: 


toxic_comments.head() 


id comment_text toxic severe_toxic obscene threat insult identity_hate 

Explanation\nWhy the 

0 0000997932d777bf edits made under my 0 0 0 0 0 0 
usern... 
D'aww! He matches this 

1 000103f0d9cfb60f background colour I'm ۵ 0 0 0 0 0 
Si. 
Hey man, I'm really not 

2 000113f07ec002fd trying to edit war. 0 0 0 0 0 0 
Ttos 
"\nMore\nI can't make 


3 0001b41b1c6bb37e any real suggestions on 0 0 0 0 0 0 


You, sir, are my hero. 


0001d958c54c6e35 Any chance you 0 0 0 0 0 0‏ 4 
remember...‏ 
في الخطوة التالية» نحذف جميع السجلات التي يحتوي کل صف فيها على قيمة فارغة أو سلسلة 


فارغة. 


filter = toxic comments["comment text"] !- "" 
toxic comments - toxic, comments[filter] 
toxic comments = toxic. comments.dropna() 


يحتوي العمود comment text‏ على تعليقات نصية. Les‏ نطبع Gus‏ ثم نرى علامات التعليق: 


print(toxic. comments["comment text"][168]) 


You should be fired, you're a moronic wimp who is too lazy to do research. 
It makes me sick that people like you exist in this world. 


الآن مع الأمر التاليء دعنا نلقي نظرة على العلامات المرتبطة بهذا التعليق: 


print("Toxic:" + str(toxic_comments["toxic"][168])) 

print("Severe toxic:" + str(toxic_comments["severe_toxic"][168])) 
print("Obscene:" + str(toxic. comments["obscene" ][168])) 
print("Threat:" + str(toxic, comnents["threat" ][168])) 
print("Insult:" + str(toxic  comments["insult"][168])) 
print("Identity hate:" + str(toxic, comments["identity hate"][168])) 


Toxic: 

Severe toxic:0 
Obscene:0 
Threat:0 
Insult:1 
Identity  hate:0 


الان دعنا نوضح عدد التعليقات لكل علامة: 
toxic comments labels = toxic comments[["toxic", "severe toxic", "obscene",‏ 
"threat", "insult", "identity hate"]]‏ 
fig size - plt.rcParams["figure.figsize"]‏ 
fig size[0] - 10‏ 
fig size[1] = 8‏ 


plt.rcParams["figure.figsize"] - fig size 
toxic comments labels.sum(axis-0).plot.bar() 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 
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يمكنك أن ترى أن الفئة "toxic"‏ هي الا کثر شيوعًا. لقد نجحنانی تحليل مجموعة البيانات 
الخاصة بنا. فيما يلي» سننشئ نموذج TT‏ متعدد العلامات لمجموعة البيانات هذه. 

بشكل عام. هناك طريقتان لإنشاء نموذج مصنف متعدد العلامات: استخدام طبقة إخراج 
متصلة بالكامل واستخدام طبقات إخراج متعددة متصلة بالكامل.في الطريقة الأولى؛ یمکننا 
استخدام طبقة متصلة بالكامل مع ست مخرجات مع دالة التفعيل sigmoid‏ ووظيفة خطأ 
الانتروبيا المتقاطع الثنائي. تمثل کل خلية عصبيةفي الطبقة المتصلة بالکامل ناتج إحدى العلامات 
الست. كما تعلم. ترجع دالة التفعيل sigmoid‏ قيمة بين 0 و1 لكل خلية عصبية. إذا كانت قيمة 
خرج كل خلية عصبية أكبر من ۰0.5 فمن المفترض أن التعليق ينتمي إلى الفئة التي يتم تمثيل 
الخلايا العصبية الخاصة بها. 

في الطريقة الثانية» يمكن إنشاء طبقة إخراج متصلة بالکامل لکل علامة.في هذا المثال» تحتاج 
إلى إنشاء 6 طبقات متصلة بالكامل عند الاخراج. كل طبقة لها sigmoid Jl»‏ الخاصة بها. 

سنستخدم الطريقة الأولى فقط لمجموعة البيانات هذه وننشئ نموذج مصنف نص متعدد 
العلامات بطبقة إخراج واحدة. أولاء نقوم بإنشاء دالة لتنظيف النص: 


def preprocess_text(sen): 
# Remove punctuations and numbers 


sentence = re.sub('[^a-zA-Z]', ' ', sen) 

# Single character removal 

sentence = re.sub(r"Ns*[a-zA-Z]Ns*", ' ', sentence) 
# Removing multiple spaces 

sentence = re.sub(r'Ns*', ' ', sentence) 


return sentence 
الخطوة التالية نقوم بانشاء مجموعة المدخلات والمخرجات الخاصة بنا۔ إدخال التعليق هو‎ 
نقوم بتخزین جمیع التعليقاتني المتغیر 26. العلامات أو المخرجات‎ comment, text العمود‎ 
نستخدم هذه القیم لتخزین المخرجات‌ي المتغیر‎ .toxic comments labels مخزنة بالفعل نی‎ 
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sentences = list(toxic_comments["comment_text"]) 
for sen in sentences: 
X.append(preprocess. text(sen)) 
y = toxic comments, labels.values 
فى مجموعة البيانات هذه لا نحتاج إلى إجراء ترميز ۰006-01 لأن علامات الإخراج الخاصة بنا‎ 
نقسم بیاناتنا إلى‎ AW! الخطوة‎ Gone-hot قد تم تحويلها بالفعل إلى متجهات ترميز‎ 
مجموعات بیانات تدریب واختبار:‎ 


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, 
random_state=42) 


بعد ذلك. نحتاج إلى تحويل مدخلاتنا إلى متجهات عددية. لذا قبل أن ننتقل إلى هذا المثالء 
دعنا نتعلم المزيد عن تضمين الكلمات .(word embedding)‏ لا تستطيع خوارزميات التعلم 
العميق فهم البيانات النصية الأولية» لذلك يجب تحويل النص حتى تتمكن الشبكة من فهمه 
ومعالجته. إن تضمين الكلمات هو طريقة لتمثيل الكلمات التى تهدف إلى التمثيل المعنوي 
للكلماتفي شكل متجهات حقیقیة حيث يتم تمثيل الكلمات 5 المعاني والسياقات المتشابهة 
بواسطة متجهات ممائلة. هذه المتجهات العددية أصغر من الأساليب الاحصائيةني معالجة اللغة 
الطبيعية لتحويل الكلمات إلى أرقام. أيضًاء هذه المتجهات العددية. إذا كانت مدربة جیدا. لديها 
القدرة على إظهار الروابط الدلالية والنحوية بين الكلمات. يعد تضمين الكلمات الحجر الاساس 
للعديد من وظائف معالجة اللغة الطبيعية التي تستخدم التعلم العميق. يمكن تحقيق تضمين 
الکلمات للنصوص من طريقتين مختلفتين.ني الطريقة الأولى؛ يتم تعليمهم‌في وقت واحد مع 
المهمة الرئيسية أثناء تدريب الشبكة.في هذه الطريقة. يتم أولاً إنشاء القيم الرقمية للمتجهات 
بشكل عشوائي ثم أثناء التدريب يتم تحديث هذه القيم من خلال التحسين مثل طبقات الشبكة 
الأخرى. الطريقة الثانية هي من خلال التدريب باستخدام خوارزميات خاصة مثل fasttext‏ 
GloVes‏ على مجموعة كبيرة من البيانات النصية واستخدام الأوزان التي تم الحصول عليها من 
هذه الخوارزميات. 
الآن دعنا نحول مدخلات النص إلى متجهات مضمنة: 

tokenizer = Tokenizer (num_words=5000) 

tokenizer.fit on texts(X train) 

X train = tokenizer.texts, to sequences(X train) 

X test = tokenizer.texts, to sequences(X test) 

vocab size - len(tokenizer.word index) + 1 

maxlen - 200 


X train = pad sequences(X train, padding-'post', maxlen=maxlen) 
X test = pad sequences(X test, padding-'post', maxlen=maxlen) 


سنستخدم مضمن الكلمات GloVe‏ لتحويل مدخلات النص إلى نظيراتها الرقمية. أدخل الكود 
أدناه لتنزيله: 


!wget http://nlp.stanford.edu/data/glove.6B.zip 
!unzip glovex.zip 


لاستخدام «GloVe‏ نقوم بما يلي: 
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from numpy import array 
from numpy import asarray 
from numpy import zeros 


embeddings_dictionary = dict() 
glove file = open('glove.6B.100d.txt', encoding="utf8") 


for line in glove file: 
records - line.split() 
word = records[@] 
vector dimensions = asarray(records[1:], dtype-'float32') 
embeddings dictionary[word] = vector, dimensions 
glove file.close() 


embedding matrix - zeros((vocab size, 100)) 
for word, index in tokenizer.word_index.items(): 
embedding vector - embeddings. dictionary.get(word) 
if embedding vector is not None: 
embedding matrix[index] = embedding. vector 


ثم نقوم بإنشاء نموذجنا بالكود التالي. سبحتوي نموذجنا على طبقة إدخال . وطبقة تضمين › 
وطبقة LSTM‏ بها 128 خلية عصبية وطبقة إخراج بها 6 خلايا عصبية . لأن لدینا 6 علامات في 


الإخراج. 


deep. inputs = Input(shape-(maxlen,)) 

embedding layer - Embedding(vocab size, 100, weights-[embedding matrix], 
trainable-False)(deep. inputs) 

LSTM Layer. 1 = LSTM(128) (embedding. layer) 

dense layer. 1 = Dense(6, activation-'sigmoid')(LSTM Layer. 1) 

model - Model(inputs-deep. inputs, outputs-dense layer. 1) 


model.compile(loss-'binary. crossentropy', optimizer-'adam', metrics-['acc']) 
دعونا نطبع ملخص النموذج:‎ 


print(model. summary )(( 
Model: "model" 


Layer (type) Output Shape Param # 
“input_1 (InputLayer)  [(None, 2000] ۳ @ 
embedding (Embedding) (None, 200, 100) 14824300 
lstm (LSTM) (None, 128) 117248 

dense (Dense) (None, 6) 774 


Total params: 14,942,322 
Trainable params: 118,022 
Non-trainable params: 14,824,300 


يمكنك تصوير بُنية الشبكة العصبية الخاصة بك باستخدام الكود التالي: 
from keras.utils.vis_utils import plot_model‏ 


plot_model(model, to_file='model_plot4a.png', show_shapes=True, 
show_layer_names=True) 
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input_1 input: 
[(None, 200)] | [(None, 200([ 


InputLayer | output: 


(None, 200) 


embedding | input: 
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lstm input: 
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يمكنك أن ترى من الشكل أعلاه أن طبقة الإخراج تتكون من طبقة واحدة متصلة بالكامل بها 6 
خلايا عصبية. الآن دعنا ندرب النموذج: 


history = model.fit(X_train, y_train, batch_size=128, epochs=5, verbose=1, 
validation_split=0. 2) 


Epoch 1/5 

2 - ج سر سے سس سس سس ت ] 798/798 
val acc: 1‏ - 0.0739 
Epoch 2/5‏ 
1 - ہے < تاج << جح < << ححح ] 798/798 
val_acc: 3‏ - 0.0599 
Epoch 3/5‏ 
۲ 798/798 
- 0.0573 
Epoch 4/5‏ 
1 - [ععع-----2----2---2------<---------] 798/798 
val acc: 0.9943‏ - 0.0566 
Epoch 5/5‏ 
----[ 798/798 
val acc: 0.9942‏ - 0.0542 


© 


s 17ms/step - loss: 0.1193 - acc: 0.9684 - val_loss: 


w 


s 17ms/step - loss: 0.0643 - acc: 0.9927 - val_loss: 


- 13s 17ms/step - loss: 0.0572 - acc: 0.9938 - val_loss: 


s 17ms/step - loss: 0.0548 - acc: 0.9939 - val_loss: 


w 


- 14s 17ms/step - loss: 0.0523 - acc: 0.9940 - val_loss: 


لنقم الآن بتقییم النموذج في مجموعة الاختبار: 


score = model.evaluate(X_test, y_test, verbose=1) 
print("Test Score:", score[0]) 
print("Test Accuracy:", score[1]) 


998/998 [==============================) - 6s 6ms/step - loss: 0.0529 - acc: 0.9938 
Test Score: 0.05285229906439781 
Test Accuracy: 0.9937959909439087 


لقد حقق النموذج دقة تصل إلى 99/ في مجموعة الاختبار وهو أمر ممتاز. أخيرًا ء قمنا برسم 
قيم الخطأ والدقة لمجموعات التدريب والاختبار لمعرفة ما إذا كان النموذج قد أدى إلى 
-overfitting‏ 


import matplotlib.pyplot as plt 


plt.plot(history.history['acc']) 
plt.plot(history.history['val acc']) 


plt.title('model accuracy') 
plt.ylabel('accuracy') 

plt.xlabel('epoch') 
plt.legend(['train','test'], loc-'upper left') 
plt.show() 
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plt.plot(history.history['loss']) 
plt.plot(history.history['val loss']) 


plt.title('model loss') 

plt.ylabel('loss') 

plt.xlabel('epoch') 
plt.legend(['train','test'], loc-'upper left') 
plt.show() 


model loss 


test‏ سے 


كما ترون في الصور أعلاه ء لم يؤدي النموذج إلى -overfitting‏ 

تحليل العاطفة مع LSTM‏ 

مع ظهور أدوات الويب 2 وظهور وسائل التواصل الاجتماعي. أصبحت حياة المجتمعات البشرية 
اليوم متشابكة بشدة. وقد أدى ذلك إلى إنتاج كميات هائلة من البيانات من قبل مستخدمي هذه 
الوسائط. تعد البيانات النصية من أكثر البيانات استخدامًا والتي يمكن استخدامها للحصول على 
معلومات مهمة حول مواضيع مختلفة. تؤدي وسائل التواصل الاجتماعي بأشكالها المختلفة مثل 
المنتديات والمدونات ومواقع التعليقات وما إلى ذلك. إلى إنتاج كميات كبيرة من البيانات بشكل 
يومي. هذه البياناتفي شكل تعليقات وانتقادات ووجهات نظر حول الخدمات والشركات 
والمنظمات والأحداث والأشخاص والقضايا والموضوعات. التعليقات التى يقدمها 
المستخدمون على الشبكات الاجتماعية مهمة جد وعملية.في متجر على «cà yl‏ يمكن أن 
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تعکس الآراء ووجهات النظر المختلفة حول منتج ما مستوى رضا العملاء وجودته. والتي يمكن 
أن تكون دلیلا رائعًا للمشترين الآخرين. ليس من السهل تصنیف وتنظيم هذا الكم الھائل من 
الآراء يدويًا حول موضوع معين. لذلك. أدت الحاجة إلى نظام آلي لجمع الآراء إلى ظهور مجال 
بحث جديد يسمى تحليل المشاعر .(Sentiment analysis)‏ تحليل المشاعر هو مجال دراسي 
هدفه الرئيسي تحديد واستخراج وتصنيف المشاعر والآراء والمواقف والأفکار والأحكام والنقد 
ووجهات النظر تجاه الکائنات والمنظمات والأحداث وما إلى ذلك دون تفاعل بشريفي شكل 
إيجابي أو سلبي أو فتات محايدة. 

النهجان المختلفان اللذان يستخدمهما الباحثون لتصنيف المشاعر في النص هما نهجان 
يعتمدان على المفردات و تعلم الآلة. يمكن اعتبار نهج آخر مزيجًا من الاثنين. يركز النهج القائم 
على المفردات على استخراج الكلمات أو العبارات التي يمكن أن توجه عملية التصنيف في اتجاه 
دلالي محدد. كل كلمة لها عبء دلالي محدد يتم استخراجه من خلال مسرد الكلمات ذات 
الشحنات العاطفية الإيجابية والسلبية التي تم تسجيلها بالفعل. عن طريق إضافة نقاط الحمل 
العاطفي للكلمات أو حساب عدد الكلمات ذات الشحنات الموجبة والسالبة ء يتم الحصول على 
القطبية العامة للجملة. يمكن تدريس نهج التعلم الالي واستخدامه بعدة طرق لتحليل المشاعر. 
في وضع التعلم الخاضع للإشراف :یتم الإشراف على نموذج التدريب بمجموعة بيانات تدريب 
مصنفة مسبقاً ليكون قادرًا على التعلم والتصرف بشكل مشابه للبيانات المدربة في مواجهة 
البيانات غير المرثية. 

في السنوات الأخيرة ۰ أثبت الباحثون على نطاق واسع أن نماذج التمثيل القائم على التعلم 
العميق أكثر فاعلية في القضايا المتعلقة بتصنيف المشاعر. يرجع اعتماد مناهج التعلم العميق 
في تحليل المشاعر إلى القدرة العالية جد لنماذج التعلم العميق على تعلم الميزات SU‏ ء والتي 
يمكن أن تحقق Bo‏ وأداء أفضل. في العديد من مجالات معالجة اللغة الطبيعية . أدى استخدام 
التعلم العميق إلى نتائج تتجاوز تلك المستخدمة سابقًا بواسطة التعلم الالي والأساليب 
الإحصائية. 

الآن بعد أن أصبحت على دراية بتحليل المشاعر . فلنقم ببناء نموذج لتحليل المشاعر في 
مجال مراجعة الأفلام بمساعدة شبكة -LSTM‏ لهذا التنفيذ . نستخدم مجموعة بيانات IMDB‏ 
تتمثل ميزة مجموعة البيانات هذه فى أنها مضمنة بالفعل فی مكتبة مجموعة بيانات Keras‏ 

B MUR نقوم بتحميل مجموعة‎ Vil 


from keras.datasets import imdb 


top_words = 5000 
(X train, y train), (X test, y test) = imdb.load  data(num words-top. words) 


يقسم الكود أعلاه مجموعة البيانات إلى مجموعتين تدريب واختبار في نفس الوقت الذي يتم 
فيه تحميل أفضل 5000 كلمة لكل مراجعة. دعنا نلقى نظرة على مجموعة البيانات: 


X_train 
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array([list([1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 
25, 100, 43, 838, 112, 50, 670, 22665, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 21631, 336, 385, 
39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 
4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 
18, 19193, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 
16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 
16, 82, 10311, 8, 4, 107, 117, 5952, 15, 256, 4, 31050, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 
400, 317, 46, 7, 4, 12118, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 
7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 
4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]) 
list([1, 194, 1153, 194, 8255, 78, 228, 5, 6, 1463, 4369, 5012, 134, 26, 4, 715, 8, 118, 


list([1, 1446, 7079, 69, 72, 3305, 13, 610, 930, 8, 12, 582, 23, 5, 16, 484, 685, 54, 349, 
11, 4120, 2959, 45, 58, 1466, 13, 197, 12, 16, 43, 23, 21469, 5, 62, 30, 145, 402, 11, 4131, 51, 
575, 32, 61, 369, 71, 66, 770, 12, 1054, 75, 100, 2198, 8, 4, 105, 37, 69, 147, 712, 75, 3543, 44, 
257, 390, 5, 69, 263, 514, 105, 50, 286, 1814, 23, 4, 123, 13, 161, 40, 5, 421, 4, 116, 16, 897, 
13, 40691, 40, 319, 5872, 112, 6700, 11, 4803, 121, 25, 70, 3468, 4, 719, 3798, 13, 18, 31, 62, 
40, 8, 7200, 4, 29455, 7, 14, 123, 5, 942, 25, 8, 721, 12, 145, 5, 202, 12, 160, 580, 202, 12, 6, 
52, 58, 11418, 92, 401, 728, 12, 39, 14, 251, 8, 15, 251, 5, 21213, 12, 38, 84, 80, 124, 12, 9, 
23], 

list([1, 17, 6, 194, 337, 7, 4, 204, 22, 45, 254, 8, 106, 14, 123, 4, 12815, 270, 14437, 5, 
16923, 12255, 732, 2098, 101, 405, 39, 14, 1034, 4, 1310, 9, 115, 50, 305, 12, 47, 4, 168, 5, 235, 
7, 38, 111, 699, 102, 7, 4, 4039, 9245, 9, 24, 6, 78, 1099, 17, 2345, 16553, 21, 27, 9685, 6139, 
5, 29043, 1603, 92, 1183, 4, 1310, 7, 4, 204, 42, 97, 90, 35, 221, 109, 29, 127, 27, 118, 8, 97, 
12, 157, 21, 6789, 85010, 9, 6, 66, 78, 1099, 4, 631, 1191, 5, 2642, 272, 191, 1070, 6, 7585, 8, 
2197, 70907, 10755, 544, 5, 383, 1271, 848, 1468, 12183, 497, 16876, 8, 1597, 8778, 19280, 21, 60, 
27, 239, 9, 43, 8368, 209, 405, 10, 10, 12, 764, 40, 4, 248, 20, 12, 16, 5, 174, 1791, 72, 7, 51, 
6, 1739, 22, 4, 204, 131, 91, 

dtype=object) 


إذا نظرت إلى البيانات أعلاه . ستلاحظ أن البيانات قد تمت معالجتها بالفعل. جميع الكلمات 
مكتوبة بأعداد صحيحة . وتمثل الأعداد الصحيحة الكلمات مرتبة حسب عدد تكرارها. على 
سبيل المثال . تمثل 4 الكلمة الرابعة الأكثر استخدامًا > و 5 تمثل الكلمة الخامسة الأكثر 
استخدامًا . وهكذا. العدد الصحيح 1 محجوز لعلامة البداية ء والعدد الصحيح 2 محجوز لكلمة 
غير معروفة . و 0 للحشو. إذا كنت تريد إلقاء نظرة على المراجعات بنفسك ومعرفة ما كتبه 
الأشخاص . يمكنك عکس هذا الاتجاه أيضا: 


word_index = imdb.get_word_index() # get {word : index} 


index_word = {v : k for k,v in word_index.items()} # get {index : word} 
index = 1 
print(" ".join(Lindex wordLidx] for idx in x_train[index]])) 


print("positve" if y train[index]--1 else "negetive") 


the thought solid thought senator do making to is spot nomination assumed while he of 
jack in where picked as getting on was did hands fact characters to always life 
thrillers not as me can't in at are br of sure your way of little it strongly random 
to view of love it so principles of guy it used producer of where it of here icon film 
of outside to don't all unique some like of direction it if out her imagination below 
keep of queen he diverse to makes this stretch stefan of solid it thought begins br 
senator machinations budget worthwhile though ok brokedown awaiting for ever better 
were lugia diverse for budget look kicked any to of making it out bosworth's follows 
for effects show to show cast this family us scenes more it severe making senator to 
levant's finds tv tend to of emerged these thing wants but fuher an beckinsale cult as 
it is video do you david see scenery it in few those are of ship for with of wild to 
one is very work dark they don't do dvd with those them 

negetive 


نظرًا لاختلاف المراجعات من حيث الطول . فإننا نريد تقسيم كل مراجعة إلى أول 500 كلمة. 
نحتاج إلى عينات نصية بنفس الطول حتى نتمكن من إدخالها في شبكتنا العصبية. إذا كانت 
المراجعات آقصر من 500 كلمة . نضيفها بصفر. 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


يعد GEL Keras‏ لهذا OY.‏ يوفر مجموعة من إجراءات المعالجة المسبقة التى يمكن إجراؤها 
بسهولة بالنسية 1 
word_index = imdb.get_word_index() # get {word : index}‏ 
index_word = {v : k for k,v in word_index.items()} # get {index : word}‏ 
index = 1‏ 


print(" ".join(Lindex wordLidx] for idx in x_train[index]])) 
print("positve" if y train[index]--1 else "negetive") 


لفهم أفضل . دعنا نختار عينة من البيانات بشكل عشوائي ونرى ما فعله الكود أعلاه: 
X_train[125]‏ 


array(L 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 1, 11, 
6, 58, 54, 4, 14537, 5, 6495, 4, 2351, 
1630, 71, 13202, 23, 26, 20094, 40865, 34, 35, 
9454, 1680, 8, 6681, 692, 39, 94, 205, 6177, 
712, 121, 4, 18147, 7037, 406, 2657, 5, 2189, 
61778, 26, 23906, 11420, 6, 708, 44, 4, 1110, 
656, 4667, 206, 15, 230, 13781, 15, 7, 4, 
4847, 36, 26, 54759, 238, 306, 2316, 190, 48, 
25, 181, 8, 67, 6, 22, 44, 15, 353, 
1659, 84675, 3048, 4, 9818, 305, 88, 11493, 9, 
31, 7, 4, 91, 12789, 53410, 3106, 126, 93, 
40, 670, 8759, 41931, 6, 6951, 4, 167, 47, 
623, 23, 6, 875, 29, 186, 340, 4447, 7, 
5, 44141, 27, 5485, 23, 220, 175, 2122, 10, 
10, 27, 4847, 26, 6, 5261, 2631, 604, 7 
2118, 23310, 36011, 5350, 17, 48, 29, 71, 12129, 
18, 1168, 38886, 33829, 1918, 31235, 3255, 9977, 31537, 
9248, 40, 35, 1755, 362, 11, 4, 2370, 2222, 
56, 7, 4, 23052, 2489, 39, 609, 82401, 48583, 
6, 3440, 655, 707, 4198, 3801, 37, 4486, 33, 
175, 2631, 114, 471, 17, 48, 36, 181, 8, 
30, 1059, 4, 3408, 5963, 2396, 6, 117, 128, 
21, 26, 131, 4218, 11, 20663, 3826, 14524, 10, 
10, 12, 9, 614, 8, 97, 6, 1393, 22, 
44, 995, 84, 21800, 5801, 21, 14, 9, 6, 
4953, 22, 44, 995, 84, 93, 34, 84, 37, 
104, 507, 11076, 37, 26, 662, 180, 
5075, 11, 882, 71, 31, 8, 39022, 36011, 31537, 
5, 48583, 19, 1240, 31800, 1806, 11521, 5, 7863, 
28281, 4, 959, 62, 165, 30, 8, 2988, 4, 
2772, 1500, 7, 4, 22, 24, 2358, 12, 10, 
10, 22993, 238, 43, 28, 188, 245, 19, 27, 
105, 5, 687, 48, 29, 562, 98, 615, 21, 
27, 8500, 9, 38, 2797, 4, 548, 139, 62, 
9343, 6, 14053, 707, 137, 4, 1205, 7, 4, 
6556, 9, 53, 2797, 74, 4, 6556, 410, 5, 
27, 5150, 8, 79, 27, 177, 8, 3126, 19, 
33, 222, 49, 22895, 7, 14090, 406, 5424, 38, 
4144, 15, 12, 9, 165, 2268, 8, 106, 318, 
760, 215, 30, 93, 133, 7, 31537, 38, 55, 
52, 11, 26149, 17310, 1080, 24192, 68007, 29, 9, 
6248, 78, 133, 11; 6, 239, 15, 9, 38, 
230, 120, 4, 350, 45, 145, 174, 10, 10, 
22993, 41, 93, 49, 478, 108, 21, 25, 62, 
115, 482, 12, 39, 14, 2342, 947, 6, 6950, 
8, 27, 157, 62, 115, 181, 8, 67, 160, 
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87, 902, 2152, 3572, 5, 6, 619, 437, 7, 
6, 4616, 221, 819, 31, 323, 46, 7, 747, 
5, 198, 112, 55, 3591], dtype-int32) 


كما ترى آعلاه . OY GE‏ سجل الطول هذاكان أقل من 500 كلمة e‏ یتم وضع رقم 0 آمامه ليكون 
من المثير للدهشة أن عمل معالجة البيانات لدينا قد اكتمل ويمكننا الآن البدء في بناء النموذج: 
from keras.models import Sequential‏ 
from keras.layers import Embedding‏ 
from keras.layers import LSTM, Dense‏ 
embedding_vector_length = 32‏ 
model = Sequential()‏ 
model.add(Embedding(top. words, embedding vector length,‏ 
input length-zmax review length))‏ 
model .add(LSTM(100))‏ 
model.add(Dense(1, activation='sigmoid'))‏ 
model.compile(loss-'binary. crossentropy' ,optimizer-'adam',‏ 


metrics-['accuracy' ]) 
print(model.summary()) 


Model: "sequential. 2" 


Layer (type) Output Shape Param # 
“embedding (Embedding) ^ (None, 500, 32) 160009 
lstm (LSTM) (None, 100) 53200 
dense (Dense) (None, 1) 101 


Total params: 213,301 
Trainable params: 213,301 
Non-trainable params: 0 


كما ذكرنا سابقا . هناك طريقتان لتضمين الكلمات. في المثال السابق استخدمنا مضمن الكلمات 
المدرب مسبقا. في هذا المثال نستخدم طبقة .embedding‏ تتعلم طبقة Embedding‏ تضمين 
كلمة من مجموعة البيانات. 

حان الوقت الآن لتدريب النموذج: 


model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=5, 
batch_size=32) 


Epoch 1/5 

782/782 [==============================) - 82s 103ms/step - loss: 0.4681 - accuracy: 
0.7815 - val loss: 0.3702 - val accuracy: 0.8430 

Epoch 2/5 

782/782 [==============================) - 79s 101ms/step - loss: 0.3340 - accuracy: 
0.8618 - val loss: 0.3984 - val accuracy: 0.8299 

Epoch 3/5 

782/782 [==============================) - 80s 102ms/step - loss: 0.2669 - accuracy: 
0.8954 - val loss: 0.3272 - val accuracy: 7 

Epoch 4/5 

782/782 [==============================) - 80s 102ms/step - loss: 0.2259 - accuracy: 
0.9117 - val_loss: 0.3122 - val_accuracy: 3 

Epoch 5/5 

782/782 [==============================) - 79s 101ms/step - loss: 0.1912 - accuracy: 
0.9270 - val loss: 0.3399 - val accuracy: 4 
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بعد الانتهاء من تدريب النموذج › حان الوقت لتقييم آداء النموذج: 


scores = model.evaluate(X_test, y_test, verbose=0) 
print("Accuracy: %.2f%%" % (scores[1]*100)) 


Accuracy: 86.04% 

كما یتضح. فقد تمكن النموذج من تحقيق Bo‏ تبلغ حوالي ۸86 ۰ وهو أمر ممتاز بالنظر إلى 

المشكلة الصعبة. ومع ذلك e‏ فإن هذا النموذج ليس أفضل نموذج ممکن كتابته. كتمرين» يمكنك 

رؤية النتائج من خلال تجربة معاملات فائقة مختلفة وبناء نموذج عالي الأداء. أيضًا . يمكنك 

رسم مخطط الخطأ والدقة للنماذج ومعرفة ما إذا كانت النماذج تؤدي إلى -overfitting‏ فيما 
يتعلق بالنموذج أعلاه ء ما رأيك في بالضبط الزائد overfitting‏ ؟ 


خلاصة الفصل 


تقضي الشبكات العصبية المتكررة على أوجه القصور في الشبكات العصبية أمامية التغذية. 
٭ شبکات RNN‏ البسيطة ليست قادرة على تعلم التبعيات طويلة المدى. 
٭ يمكن د 151۷ تكوين تبعيات طويلة المدى بسبب وجود خلية ذاكرة خاصة في هيكلها. 


اختبار 
كم عدد البوابات التي تمتلكها LSTM‏ وما هو دور كل منها؟ 


+ 
٠ج‎ 


المقدمة 


في هذا الفصلء نعتزم تقديم مجموعة من نماذج المولد Fly‏ على بعض مفاهيم نظرية اللعبة. 
السمة الرئيسية الخاصة بهم هي طريقة تدريب معادية (خصومة) تهدف إلى معرفة التمییز بين 
العينات الحقيقية والمزيفة من خلال مكون واحد. وفي الوقت نفسه. ينتج مكون آخر عينات 
أكثر فأكثر LS‏ مع عینات التدريب. باختصار نی هذه الشبکات. ينتج آحدهم. والآخر يدون 
الملاحظات. وبالتعاون التامء يحققون نتائج جيدة جدا. 


ماهو النموذج المولد؟ 
بشکل عام» هناك نوعان رئیسیان من النماذج في التعلم الآلي: نموذج المولد ) generative‏ 
(model‏ ونموذج (discriminative model) j‏ يحاول نموذج المميز ء كما يوحي اسمه e‏ 
فصل البيانات بين فثتین أو آکثر. بشكل عام ء تركز نماذج الممیز على التنبؤ بفتات البيانات Gi y‏ 
لخصائصها. على العكس من ذلك. لا يحاول نموذج المولد تعيين سمات للفئات c‏ ولكنه يولد 
سمات موجودة في فئة معينة. هناك طريقة سهلة للتمییز بين نموذج المولد ونموذج المميز: 

t‏ يركز نموذج المولد على نمذجة توزيع البيانات. 

٭ يهتم نموذج المميز بإيجاد حدود أو قواعد لفصل البيانات. 


يصف نموذج المولد -Livlasd3‏ مجموعه بيانات بنا على نموذج احتمالى. 


تعد نماذج المولد أداة قوية لفحص توزيع البيانات أو تقدير كثافة مجموعات البيانات. تتبع 
نماذج المولد التعلم غير الخاضع للإشراف الذي GUE GES‏ الأنماط أو المخالفات‌في 
البيانات التي يتم تحليلها. يساعد هذافي إنشاء بيانات جديدة تشبه إلى حد كبير مجموعة البيانات 
الأصلية. على وجه التحدید. الهدف من نماذج المولد هو معرفة التوزيع الفعلي للبیاناتنی 
مجموعة التدریب. لإنشاء نقاط بيانات جديدة مع بعض التعدیلات. 

الغرض الرئيسي من جمیع آنواع نماذج المولد هو معرفة التوزیع الفعلي لبیانات مجموعة 
التدریب بحیث یمکن إنشاء نقاط بیانات جديدة مع التعدیلات. لکن لا يمكن للنموذج أن یتعلم 
التوزیع الدقیق لبیاناتنا. لذلك قمنا بنمذجة توزیع مشابه لتوزیع البیانات الحقيقية. للقيام بذلك 
نستخدم معرفة الشبكة العصبية للتعلم الدالي الذي یمکنه تقریب توزیع النموذج إلى التوزیع 
الفعلی. 
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نماذج المولد ومستقبل الذكاء الاصطناعي؟ 


هناك ثلاثة أسباب عامة تجعل من الممكن اعتبار نماذج المولد مفتاحًا لاطلاق شكل أكثر تعقیدا 
من الذكاء الاصطناعي يتجاوز ما يمكن أن تحققه نماذج المميز. 


Sal‏ ء من وجهة النظر النظرية وحدها . لا يجب أن نشعر بالرضا عن القدرة الفائقة على 
تصنيف البيانات فحسب . بل يجب CAT‏ السعي إلى فهم أكثر اکتمالاً لكيفية إنشاء 
البيانات في المقام الأول. مما لا شك فيه أن حل هذه المشكلة أصعب بكثير من الطرق 
المقارنة. ومع ذلك . كما سنرى . يمكن أيضًا استخدام العديد من نفس الأساليب التي 
أدت إلى تطوير النمذجة التمييزية (مثل التعلم العميق) بواسطة نماذج المولد. 

OE‏ من المرجح أن تكون النمذجة التوليدية أكثر أهمية وفعالية من أي شيء آخر في 
توجيه التطورات المستقبلية في مجالات أخرى من التعلم الآلي ء مثل التعلم المعزز 
«(Reinforcement learning)‏ على سبيل المثال » یمکننا استخدام التعلم المعزز 
لتدريب الروبوت على المشي في منطقة معينة. النهج العام هو بناء محاكاة حاسوبية من 
الأرض ثم إجراء العديد من التجارب التي يحاول فيها الوكيل استراتيجيات مختلفة. 
بمرور الوقت . يتعرف الوكيل على الاستراتيجيات الأكثر نجاحًا من غيرها وبالتالي 
یتحسن تدريجيًا. المشكلة الشائعة في هذا انتج هي آن فيزياء البيئة غالبا ما تکون معقدة 
للغاية ویجب حسابها في كل خطوة لإعادة المعلومات إلى الوكيل ليقرر خطوته التالية. 
ومع ذلك . إذا تمكن الوكيل من محاكاة بيئته من خلال نموذج توليدي . فلن يحتاج إلى 
تجربة الإستراتيجية في محاكاة الكمبيوتر أو في العالم الحقيقي . ولكن يمكنه التعلم في 
أخيرًا . إذا أردنا G‏ أن نقول إننا بنينا آلة اكتسبت شکلاً من أشكال الذكاء يمكن مقارنته 
بالذكاء البشري » فیجب أن تكون النمذجة التوليدية بالتأكيد جزءًا من الحل. أحد أفضل 
الأمثلة على نموذج المولد في العالم الحقيقي هو الشخص الذي يقرأ هذا الكتاب. توقف 
لحظة لتفكر في ماهية نموذج المولد المذهل الذي أنت عليه. يمكنك أن تغمض عينيك 
وتتخيل شكل الفيل من كل زاوية ممكنة. يمكنك تخيل عدد من النهايات المختلفة 
والمقبولة لبرنامجك التلفزيوني المفضل » ويمكنك Cash‏ التخطيط لأسبوعك والعمل فيه 


من خلال العمل في المستقبل في عقلك. تظهر نظرية علم الأعصاب الحالية أن فهمنا 
للواقع ليس نموذجًا مميرًا معقدا للغاية يعمل على مدخلاتنا الحسية لتوليد تنبؤات بما 
نشهده . بل إنه نموذج مثمر يتم تدريبه منذ الولادة لتوليد محاكاة لمحيطنا تتناسب تماما 


شبكة الخصومة التوليدية (GAN)‏ 


فكرفي كيفية التعلم. نت تحاول شین ما وتحصل على ردود الفعل. قمت بتعديل استراتيجيتك 
وحاول مرة آخری. قد تأخذ التعلیقات شکل النقد أو UNI‏ أو الکسب. قد يأتي من حکمك على 
مدی جودة آدائك. ومع ذلك غالبًا ما تکون التعلیقات الا کثر فائدة هي التعلیقات الواردة من 
شخص آخر لأنها ليست مجرد رقم أو شعور, ولکنها تقييم ذكي لمدی نجاحك‌ني ذلك. 

عندما یتم تدریب جهاز کمبیوتر على مهمة ماء عادة ما يقدم البشر ملاحظات‌ني شکل 
معاملات أو خوارزمیات. تکون هذه الملاحظات آسهل عندما تکون مهمة بسيطة مثل تعلم ضرب 
رقمین. يمكنك بسهولة إخبار الکمبیوتر بدقة كيف حدث خطأ. ومع ذلك مع مهمة أكثر تعقیدا, 
مثل إنشاء صورة قطة یصبح تقدیم الملاحظات آکثر صعوبة. هل الصورة ضبابیة هل تبدو آشبه 
بالکلب آم تبد و كشيء على الاطلاق؟ یمکن تنفیذ الإحصائيات المعقدة. لکن من الصعب تسجیل 
كل التفاصیل التي تجعل الصورة حقيقية. یمکن للمرء أن یقدرہ لن لدینا الکثیر من الخبرةفي 
تقییم المدخلات المرثية LSI‏ بطيئون نسبيًا ویمکن أن تکون تقبیماتنا ذاتية للغاية. بدلاً من 
ذلك. یمکننا تدریب شبكة عصبية لتعلم مهمة التمییز بین الصور الحقيقية والمنتجة. بعد ذلك 
یمکن اعطاء مولد الصور (الشبكة العصبیة) والممیز الفرصة للتعلم من بعضهما البعض 
والتحسین بمرور الوقت. الشبکتان اللتان تلعبان هذه اللعبة هما الخصومة التوليدية. 

شبکات الخصومة الئتونئيدıة)Networks (Generative Adversarial‏ « أو اختصارًا 
«GAN‏ هي 23 من تقنیات التعلم JW‏ التي تتکون من نموذجین مدرٌّبیننی وقت واحد: مولد 
مُدرّب على إنشاء بیانات مزيفة وممیز مُدرّب. للتمییز بين البیانات المزيفة والعینات الحقيقية. 
تشیر كلمة "تولید" إلى الغرض العام للنموذج: إنشاء بیانات جديدة. تعتمد البیانات التي تتعلم 
GAN‏ على تولیدها على اختیار مجموعة التدریب. على سبیل المثال إذا ردنا أن تجمع GAN‏ 
بين صور تشبه دافنشي. LID‏ نستخدم قاعدة Da Vinci Art Obly‏ التدريبية. 

يشير مصطلح الخصومة (adversarial)‏ إلى منافسة ديناميكية ومرحة بين النموذجین اللذین 
یشکلان إطار عمل GAN‏ المولد والممیز. الهدف من المولد هو إنشاء عینات لا یمکن تمییزها 
عن البیانات الفعليةفي مجموعة التدريب.في مثالناء هذا يعني إنتاج لوحات تشبه لوحات دافنشي 
Ls‏ الغرض من الممیز هو التمییز بين العینات المزيفة التي ینتجها المولد من العینات الحقيقية 
التي تم الحصول عليها من مجموعة بیانات التدريب.في مثالنا. تلعب الممیز دور خبیر فني یقیم 
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أصالة اللوحات التي يعتقد أنها تنتمي إلى دافنشي. تحاول الشبكتان باستمرار خداع بعضهما 
البعض: فكلما كان المولد أفضل نی إنشاء بيانات واقعية» يجب أن يكون الفارق أفضلفي التمییز 
بين العينات الحقيقية والعينات المزيفة. 

أخيرًاء تشير كلمة الشبكات العصبية إلى فئة نماذج التعلم الآلي المستخدمة بشکل شائع لتمثيل 
المولد والمميز. اعتمادًا على مدى تعقيد تنفيذ GAN‏ يمكن أن تتراوح من الشبكات العصبية 
امامية التغذية البسيطة إلى الشبكات العصبية الالتفافية أو حتى الأنواع الأكثر تعقيداً. 

الرياضيات الأساسية لشبكات GAN‏ معقدة. لحسن الحظ يمكن للعديد من المقارنات‌ني 
العالم الحقيقي أن تجعل فهم شبكات GAN‏ أسهل.في المثال السابق. تحدثنا عن مزور فني 
(مولد) يحاول خداع خبير فني (مميّز). كلما كانت اللوحات المزيفة أكثر إقناعًاء كان على الفنان 
أن يكون أفضلفي التعرف على أصالتها. والعکس صحيح أيضًا: فکلما كان الخبير الفني أفضل في 
التعرف على أصالة لوحة معينة. كان يجب على المزور أن يعمل بشكل أفضل لتجنب الوقوعفي 
الفخ. 

بتعبير Gol‏ الهدف من المولد هو إنتاج عينات توضح خصائص مجموعة بيانات التدريب 
بحيث لا يمكن تمییز العينات التي ينتجها عن بيانات التدريب. يمكن اعتبار المولد كنموذج 
عكسي للكشف عن الکائن. تتعلم خوارزميات التعرف على الكائنات الأنماط الموجودةني الصور 
للتعرف على محتوى الصورة. بدلاً من التعرف على الأنماطء يتعلم المولد إنشاءها ساسا من 
نقطة الصفر.في الواقع. WE‏ ما لا يكون إدخال المولد أكثر من متجه رقم عشوائي. یتعلم المولد 
من خلال التعليقات التي يتلقاها من المميز. الغرض من المميز هو تحديد ما إذا كان عينة معينة 
tnt) al‏ من مجموعة بیانات التدریب) آم مزيفة (تم إنشاؤها بواسطة المولد). وفقا لذلك. 
في کل مرة یتم فيها خداع الممیز وتصنیف صورة مزيفة على Ul‏ حقيقية. یعرف المولد أنه قام 
بعمل جید. على العکس من ذلكءفی كل مرة یرفض فيها الممیز بشکل صحیح الصورة التي 
ینتجها المولد على آنها مزيفةء یتلقی المولد ملاحظات تحتاج إلى التحسین. كما یستمر الممیز 
في التحسن. مثل أي مصنف آخرء یتعلم من الفرق بين تنبژاته والتسمیات الحقيقية (الحقيقية 
أو المزيفة). وبالتالي. مع تحسن المولدفي إنتاج بیانات حقيقية. یتحسن الممیزفی التمییز بين 
البيانات المزيفة والبيانات الحقیقیة وتستمر كلتا الشبكتينفي التطورفي وقت واحد. 


التدريب على الخصومة 


في «GAN‏ يتم تدريب المولد والمميز بطريقة متضاربة؛ أي أنهما يتنافسان مع بعضهما البعض 
في إطار المجموع الصفري (zero-sum)‏ لإنتاج بيانات مشابهة لتوزيع البيانات الحقيقية. 
الغرض من GAN dU JI‏ هو إنتاج عينات يبدو أنها من توزيع بيانات حقیقیة حتى لو كانت 
مزيفةء والغرض من المميز هو اكتشاف ما إذا كانت العينات مزيفة أم أصلية. 

من وجهة نظر التحسین. فان الهدف من التعليم المولد هو زيادة أخطاء المميز. بمعنى آخر 
كلما زاد عدد الأخطاء التي يرتكبها المميزء كان المولد أفضل. الغرض من المميز هو تقلیل 
الخطأ.في كل نکرار. تتحرك UIS‏ الشبكتين نحو أهدافهما باستخدام تناوب تنازلي. ومن المثير 
للاهتمام أن كل شبكة تحاول هزيمة شبكة أخرى. يحاول المولد خداع المميزء بينما يحاول 
المميز ألا ينخدع. آخیرا. يمكن لبيانات الإخراج (مثل الصور والصوت والفيديو والسلاسل 
الزمنية) من المولد أن تخدع أكثر المميزات تعقیدا. 

من الناحية العمليق يأخذ المولد عينات عشوائية من توزيع محدد مسبقا مع التوزیع کمدخلات 
ویولد البيانات التي يبدو أنها تأتي من التوزيع المستهدف. 
يتم تنفيذ الخطوات التالية بواسطة :GAN‏ 


1. تأخذ شبكة المولد عینات عشوائية من التوزيع الاحتمالي الطبيعي وتولد الصور. 
ثم يتم تمرير هذه الصور التي تم إنشاؤها إلى شبكة المميز. 
تلتقط شبكة المميز WS‏ من الصور التي تم إنشاؤها والصور المأخوذة من مجموعة 
البيانات الفعلية. 
4. يعطي المميز الاحتمالات عند الاخراج. 
يتم حساب الخطأ (دالة التكلفة) للمولد Fly‏ على الانتروبیا المتقاطعة للصور المزيفة 
التي يعتبرها المّمیز صالحًا. 
6 يتم حساب الخطأ (دالة التكلفة) للمميز بناءً على الانتروبيا المتقاطعة للصور المزيفة 
التي تعتبر مزيفة ء بالإضافة إلى الانتروبیا المتقاطعة للصور الحقيقية التي تعتبر صالحة. 
7 في كل فترة . یٹم تحسین UIS‏ الشبکتین لتقليل اخطائهما. 
st .8‏ ينتج المولد المدرب جیدا الصور کمخرج نهائي يحاكي صور الادخال الفعلية. 
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كمثال لتوليد صورة» يمكن عرض نموذج EGAN‏ الشكل التالي: 


شبكة المولد 
صورة مزيفة 


-C 


ہہ 


شکل 1-6. الهيكل العام لشبكة خصومة توليدية. 


GAN تدريب‎ 


هدفنا الرئيسي هو إنشاء مولدات صور حقيقية (بیانات). وإطار عمل GAN‏ هو ibl‏ لهذا 
الغرض. قبل الخوض في مزيد من التفاصیل. دعنا نقدم بعض الرموز: 
* نشیر إلى المولد بواسطة )05 ,6)2 ۰ حيث Og‏ هي أوزان الشبكة و Z‏ هو المتجه الكامن 
(latent vector)‏ الذي يعمل كمدخل للمولد. فكر في الأمر كبذرة عشوائية ) random‏ 
0 لبدء عملية انتاج الصور. يحتوي 2 على توزيع احتمالي ل «pz (z)‏ والذي یکون 
(random normal) Gale Gil pte dole‏ أو منتظمًا عشواتًا -(random uniform)‏ ينتج 
المولد عينات وهمية x‏ عن طريق توزيع الاحتمال po (x)‏ يمكنك التفكير في Dg (x)‏ 
كتوزيع احتمالي لبيانات حقيقية فيما يتعلق بالمولد. 
* نشير إلى المميز بواسطة D(x, Og)‏ حيث أن Og‏ هو وزن الشبكة. يأخذ البيانات الحقيقية 
كمدخلات عن طريق توزيع x Daata (X)‏ أو العینات المولدة xo pg (X)‏ المميز هو 


نف ثنائي ينتج قيمة 1 أو 0 . اعتمادًا على ما إذاكانت صورة الإدخال حقيقية (مخرج 
الشبكة 1) أو تم إنشاؤها (مخرج الشبكة 0).. 
" أثناء التدریب ‏ نشير إلى دوال الخطأ للمميز والمولد بواسطة JO)‏ و J‏ على التوالى. 
يختلف تدريب GAN‏ عن تدریب شبكة عصبية عميقة نموذجية ON‏ لدينا شبكتين. یمکننا 
اعتبارها لعبة مجموع CZero-sum game) pave‏ كاملة بين لاعبين (مولدين ومميزين): 


1. تسلسلي :(Sequential)‏ هذا يعني أن اللاعبين يتبادلون الأدوار » على غرار الشطرنج. 
في البداية . يحاول المميز تقليل J)‏ لکن يمكنه فقط القيام بذلك عن طريق ضبط 
الأوزان Oa‏ يحاول المولد بعد ذلك تقليل JO‏ لکن يمكنه فقط ضبط الأوزان » Og‏ 
تتكرر هذه العملية عدة مرات. 

d‏ المجموع الصفري :(Zero-sum)‏ هذا يعني أن ربح أو خسارة أحد اللاعبين متوازنة 
تمامًا مع ربح أو خسارة اللاعب الآخر. وهذا يعني أن الخسارة الإجمالية للمولد والمميز 
هي دائمًا 0: 

JO = -JP 

3. ميني ماكس (minimax)‏ هذا يعني أن استراتيجية اللاعب الأول (المولد) هي تقليل 
الدرجة القصوى للخصم (المميز). عندما نقوم بتدريب الممیز e‏ فإنها تعمل على تحسين 
اكتشاف العينات الحقيقية والمزيفة (تقليل J?‏ بعد ذلك. عندما نقوم بتدریب المولد. 
فإنه يحاول رفع مستوى المميز المحسن Édo‏ (نقوم بتصغير JO‏ وهو ما يعادل بتكبير 
J‏ الشبكتان في منافسة مستمرة. نعرض لعبة minimax‏ مع ما يلي أن V‏ دالة تكلفة: 

mingmaxpV(G, D) 
بالحد الأدنى المحلي.‎ JO و‎ J لنفترض أنه بعد خطوات تدريب قليلة » سيكون كل من‎ 
يحدث توازن ناش‎ . (Nash equilibrium) ثم يسمى حل لعبة الحد الادنى بتوازن ناش‎ 
عندما لا يغير أحد الممثلين عمله . بغض النظر عما يفعله الممثل الآخر. يحدث توازن‎ 
ob عندما يصبح المولد جیدا جدا بحيث لم يعد الفارق‎ GAN ناش في إطار عمل‎ 
على التمييز بين العينات الفعلية والمنتجة.‎ 


تدريب المميز 
إن المميز عبارة عن مصنف شبكة عصبیة ويمكننا تعليمه بالطريقة المعتادة» باستخدام التدرج 


العينات الفعلية والمولدة. دعونا نری كيف يمكن دمجهاني عملية التدریب: 


1. اعتمادًا على نمط الادخال (حقیقی أو مزيف) . لدينا مساران: 
m‏ حدد العينة من البيانات الفعلية X~Daatg‏ واستخدمها لإنشاء Dy‏ 
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* إنتاج عينة وهمية .x~Dg‏ هنا . يعمل المولد والمميز كشبكة واحدة. نبداً بمتجه 
عشوائي 2. والذي نستخدمه لإنشاء العينة المولدة Gy‏ ثم نستخدمها كمدخلات 
للمميز لتولید الناتج النهائي ((2) 6) (1. 
2. حساب دالة الخطأ التى تعكس ازدواجية البيانات التدريبية. 
3 يتم إعادة نشر تدرج الخطأ وتحديث الأوزان. على الرغم من أن الشبكتين تعملان es‏ 

إلا أن أوزان المولد Og‏ سيتم قفلها . وسنقوم فقط بتحديث آوزان المميز Oa‏ هذا 
لفهم خطأ التمیز دعونا نتذكر معادلة خطأ الانتروبيا المتقاطعة: 


CE(p,q) = — D pil) log(qi GO) 


حيث qu(x)‏ هو احتمال تقدير الناتج الذي ينتمي إلى الفئة 1 (من فئة (n‏ و p(x)‏ هو الاحتمال 
الحقیقی. للتبسیط. افترض أننا طبقنا المعادلة على عينة التدريب.فى حالة التصنيف الثنائی يمك 

۰ بسیط. افترض اننا طب على عينة التدريب.في : ae‏ 
تسیط هذه الصيغة على النحو التالی: 


CE(p,q) = —(p(x) log q(x) + )1 - p(x))log(1 — q(x)) 
IM یمکننا تمدید المعادلة إلى مجموعة جزئية من عینات‎ 


1 m 
Dq)—-—— P\ xj) 10g q(x; ) + (1 ¬ p(xj))1og(1 ¬ 4) 
CE(p,q) = —— ( (p(x) log a(xj) + à - p@%)) log — a(;)) 

j=i 
هذا دعونا نحدد خطأ المميز:‎ JS مع العلم‎ 


1 1 
JO=- Fea log(D(x)) — z Ez log (1 — D(G(z))) 


الخاصة من شبکات GAN‏ 


تدريب المولد 


سنقوم بتدريب المولد على خداع المميز من خلال تحسينه. للقيام بذلكك. نحتاج إلى WS‏ 
الشبکتین. على غرار الطريقة التي نعلم بها الممیز بأمثلة مزيفة: 


1. نبدأ بمتجه کامن عشوائي 2 ونغذيه من خلال مولد ومميز لانتاج الناتج -D(G(z))‏ 


2 دالة الخطأ هي نفس خطأ المميز. ومع ذلك . فإن هدفنا هنا هو التكبير وليس التقليل. 
US‏ نريد خداع المميز. 
3. في مرحلة التراجع . يتم قفل أوزان المميز Oa‏ ويمكننا فقط ضبط Og‏ يتيح لنا ذلك 
زيادة خطأ المميز إلى الحد الأقصى من خلال تحسين المولد بدلاً من جعل أداة المميز 
ddl‏ 
في هذه المرحلةء نستخدم البيانات التي تم إنشاؤها فقط. سيكون جزء دالة الخطأ الذي يتعامل 
مع البيانات الحقيقية lo‏ 0. لذلك یمکننا تبسيطها على النحو التالي: 


J® = E, log (1 - D(G(z))) 


فى البداية. عندما يمكن للمميز التمییز بسهولة بين العينات الحقيقية والمزيفة 0 = «D(G(z))‏ 
سيكون التدرج قريبًا من الصفر. هذا يؤدي إلى تعلم طفيف للأوزان» وهو ما يعرف بالتدرج 
المتناقص .(diminished gradient)‏ یمکننا حل هذه المشكلة باستخدام دالة خسارة مختلفة: 


J = —E, log (D(G(z))) 
وفي نفس الوقت يكون التدرج كبيرًا‎ D(G(z)) & 1 لا یزال هذه الخطأ منخفض عندما یکون‎ 
(عندما يكون أداء المولد ضعیفا). مع هذا الخطأ. لم تعد اللعبة مجموعة صفرية؛ ولكن لن يكون‎ 
.GAN لها أي تأثير عملي على إطار عمل‎ 
تدريب الاثنين معا (المولد والممیز)‎ 


من خلال معرفتنا الجديدة یمکننا تحديد هدف الحد الأدنى بشکل كامل: 
1 1 : 
mingmaxpV (G, D) = 2 Ex~paata log(D(x)) + 3Ez log (1 — D(Gz)))‏ 


باختصار يحاول المولد تقليل الهدف. بينما يحاول المميز تكبيره. لاحظ أنه على الرغم من أن 
المميز يجب أن يقلل من خسارته. فان الهدف هو تقليل خطأ المميز السلبي. لذلك يجب على 
المميز تكبيره. 

توليد صور جديدة ۲ GAN UMNIST‏ 


في هذا القسم نريد تنفيذ شبكة الخصومة التوليدية باستخدام Keras‏ و Î .Tensorflow‏ 
نقوم بإدخال الاكواد المطلوية: 


from tensorflow.keras.datasets import mnist 

from tensorflow.keras.layers import Input, Dense, Reshape, Flatten, Dropout 

from tensorflow.keras.layers import BatchNormalization, Activation, ZeroPadding2D 
from tensorflow.keras.layers import LeakyReLU 
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from tensorflow.keras.layers import UpSampling2D, Conv2D 
from tensorflow.keras.models import Sequential, Model 
from tensorflow.keras.optimizers import Adam 

from tensorflow.keras import initializers 

import matplotlib.pyplot as plt 

import sys 

import numpy as np 

import tqdm 


(X_train, _), (_, _) = mnist.load_data() 
X_train = (X_train.astype(np.float32) - 127.5)/127.5 


كما لاحظت . فإننا لا نعيد أي علامات أو مجموعات بيانات اختبار. نحن نستخدم مجموعة 
بيانات التدریب فقط. العلامات غير مطلوبة ء حيث أن العلامات الوحيدة التي سنستخدمها هي 
0 للعلامات المزيفة و1 للعلامات الحقيقية. هذه صور حقيقية . لذلك تم تخصيص علامة 1 
في سیر qeu‏ 

سنستخدم بيرسيبترون متعدد الطبقات ونعطيه صورة كمتجه مسطح بحجم ۰784 لذلك 
سنقوم بتحويل بيانات التدريب: 

X_train = X_train.reshape(60000, 784) 

الآن علينا أن نصنع مولدا ومميرًا. الغرض من المولد هو تلقي مدخلات مشوهة noisy data‏ 
وإنتاج صورة مشابهة لمجموعة بيانات التدريب. يتم تحديد حجم إدخال الضوضاء بواسطة متغير 
.randomDim‏ يمكنك تهینته إلى أي قيمة. عادة ما يتم ضبطه على 100. للتنفيذ . اختبرنا قيمة 
0. يدخل هذا الإدخال طبقة كثيفة Dense‏ من 256 خلية عصبية مع تنشيط -LeakyReLU‏ 
في الخطوة التالیة » نضيف طبقة أخرى متصلة GLS‏ بها 512 خلية عصبية مخفية . تليها الطبقة 
الثالثة المخفية التي تحتوي على 1024 خلية عصبية . وأخيرًا طبقة الاخراج مع 784 خلية 
عصبية. يمكنك تغيير عدد الخلايا العصبية في الطبقات المخفية ورؤية كيف تتغير الدالة. ومع 
ذلك. يجب أن يتطابق عدد الخلايا العصبية لكل وحدة إخراج مع عدد البكسل في صور التدريب. 
المولد على النحو التالي: 


randomDim = 10 

generator = Sequential () 
generator.add(Dense(256, input_dim=randomDim)) 
generator.add(LeakyReLU(Q.2)) 
generator.add(Dense(512)) 

generator .add(LeakyReLU(0.2)) 

generator .add(Dense(1024)) 

generator .add(LeakyReLU(0.2)) 
generator.add(Dense(784, activation='tanh')) 


وبصورة مماثلة ء نقوم بإنشاء المميز. لاحظ أن المميز تأخذ صورًا من مجموعة التدريب أو الصور 
التي ينتجها المولد . لذا فإن حجم الإدخال هو 784. ومع ذلك . فإن الناتج يحدد الى بت واحد 


ويشير 0 إلى صورة مزيفة (تم إنشاؤها بواسطة المولد) ويشير 1 إلى أن الصورة من مجموعة 
بيانات تدريبية: 


discriminator = Sequential () 

discriminator. add(Dense(1024, input dim-784, 
kernel initializer-initializers.RandomNormal(stddev-0.02))) 
discriminator. add(LeakyReLU(0. 2)) 

discriminator. add(Dropout(0. 3)) 

discriminator. add(Dense(512)) 

discriminator. add(LeakyReLU(0.2)) 

discriminator. add(Dropout(@.3)) 

discriminator. add(Dense(256)) 

discriminator. add(LeakyReLU(0.2)) 

discriminator. add(Dropout(@.3)) 

discriminator. add(Dense(1, activation-'sigmoid')) 


ثم نقوم بدمج المولد والمميز لتشكيل GAN‏ في GAN‏ . من خلال تعيين الوسيطة trainable‏ 
على ٠ False‏ نتأكد من إصلاح أوزان المميز: 


# Combined network 

discriminator.trainable = False 

ganInput = Input(shape=(randomDim, )) 

x = generator(ganInput ) 

ganOutput = discriminator(x) 

gan = Model(inputs-ganInput, outputs-ganOutput) 


الحيلة في تدريب الاثنين هي أولاً تدريب المميز بشكل منفصل. نحن نستخدم اخطاء ثنائية عبر 
الانتروبیا للمميز. بعد ذلك e‏ نقوم بتجميد freeze‏ أوزان المميز وتدريب GAN‏ الهجين. هذا 
يؤدي إلى تدريب المولد: 


discriminator.compile(loss='binary_crossentropy', optimizer=adam) 
gan.compile(loss='binary_crossentropy', optimizer=adam) 


لنبدأ OW‏ البرنامج التدريبي. لكل دورة » نأخذ أولاً عينة من noisy data‏ « ونمررها إلى المولد c‏ 
وينتج المولد صورة مزيفة. نقوم بدمج الصور المزيفة وصور التدريب الحقيقية في فئة واحدة مع 
العلامات الخاصة بنا ونستخدمها لتدريب المميز فى الفئة المحددة: 


dLosses = [] 
glosses = [] 
def train(epochs-1, batchSize=128): 
batchCount = int(X train.shape[0] / batchSize) 
print ('Epochs:', epochs) 
print ('Batch size:', batchSize) 
print ('Batches per epoch:', batchCount) 


for e in range(1, epochs+1): 
print ('-'*15, 'Epoch %d' % e, '-'x15) 
for _ in range(batchCount): 
# Get a random set of input noise and images 
noise = np.random.normal(0, 1, size=[batchSize, randomDim]) 
imageBatch - X train[np.random.randint(0, X train.shape[0], 
size-batchSize)] 


# Generate fake MNIST images 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


generatedImages = generator.predict(noise) 
# print np.shape(imageBatch), np.shape(generatedImages) 
X = np.concatenate([imageBatch, generatedImages]) 


# Labels for generated and real data 
yDis = np.zeros(2*batchSize) 

# One-sided label smoothing 
yDis[:batchSize] = 0.9 


# Train discriminator 
discriminator.trainable = True 
dloss = discriminator.train on batch(X, yDis) 


الآن في نفس حلقة for‏ « نقوم بتدريب المولد. نريد أن يتم التعرف على الصور التي ينتجها المولد 
بواسطة المميز على أنها حقيقية . لذلك نستخدم متجها عشواتيًا (ضوضاء) كمدخل للمولد. 
يقوم بإنشاء صورة مزيفة ثم يقوم بتدریب GAN‏ بطريقة تجعل مميز الصورة يفهم الشيء الحقيقي 
cou»‏ 1 


# Train generator 

noise - np.random.normal(0, 1, size-[batchSize, randomDim]) 
yGen - np.ones(batchSize) 

discriminator.trainable - False 

gloss - gan.train on batch(noise, yGen) 


إذاكنت ترغب فى ذلك . يمكنك حفظ اخطاء المولد والمميز وكذلك الصور الناتجة. بعد ذلك. 
نقوم بتخزين الخطأ لكل دورة وتوليد صور بعد كل 20 دورة: 


# Store loss of most recent batch from this epoch 
dLosses.append(dloss) 
gLosses.append(gloss) 


if e == 1 or e % 20 == 0: 
saveGeneratedImages(e) 


لرسم الاخطاء والصور التي تم إنشاؤها للأرقام المكتوبة بخط اليد. نحدد دالتين مساعدتين « 
95 و .saveGeneratedImages‏ اكوا ادهم على النحو التالى: 


# Plot the loss from each batch 

def plotLoss(epoch): 
plt.figure(figsize=(10, 8)) 
plt.plot(dLosses, label='Discriminitive loss') 
plt.plot(gLosses, label='Generative loss') 
plt.xlabel('Epoch') 
plt.ylabel('Loss') 
plt.legend() 
plt.savefig('images/gan. loss. epoch ZXd.png' % epoch) 


# Create a wall of generated MNIST images 
def saveGeneratedImages(epoch, examples-100, dim-(10, 10), figsize-(10, 
10)): 
noise - np.random.normal(0, 1, size-[examples, randomDim]) 
generatedImages - generator.predict(noise) 
generatedImages - generatedImages.reshape(examples, 28, 28) 
plt.figure(figsize-figsize) 
for i in range(generatedImages. shape[0]): 


plt.subplot(dim[0], dim[1], i+1) 
plt.imshow(generatedImages[i], interpolation-'nearest', 
cmap='gray_r') 
plt.axis('off') 
plt.tight layout() 
plt.savefig('images/gan generated image. epoch Xd.png' % epoch) 


oM‏ دعونا نحصل على كل الكود معا: 


from tensorflow.keras.datasets import mnist 

from tensorflow.keras.layers import Input, Dense, Reshape, Flatten, 
Dropout 

from tensorflow.keras.layers import BatchNormalization, Activation, 
ZeroPadding2D 

from tensorflow.keras.layers import LeakyReLU 

from tensorflow.keras.layers import UpSampling2D, Conv2D 

from tensorflow.keras.models import Sequential, Model 

from tensorflow.keras.optimizers import Adam 

from tensorflow.keras import initializers 

import matplotlib.pyplot as plt 

import sys 

import numpy as np 

import tqdm 

randomDim - 10 


# Load MNIST data 

(X train, 2, C, _) = mnist.load data() 

X train = (X train.astype(np.float32) - 127.5)/127.5 
X train = X train.reshape(60000, 784) 

generator - Sequential() 

generator.add(Dense(256, input dim-randomDim)) #, 

kernel initializer-initializers.RandomNormal(stddev-0.02))) 
generator.add(LeakyReLU(@. 2)) 

generator.add(Dense(512) ) 

generator .add(LeakyReLU(@.2)) 

generator.add(Dense(1024)) 

generator.add(LeakyReLU(@.2)) 

generator.add(Dense(784, activation='tanh' )) 

adam = Adam(learning_rate=0.0002, beta_1=0.5) 


discriminator = Sequential() 

discriminator.add(Dense(1024, input_dim=784, 

kernel initializer-initializers.RandomNormal(stddev-0.02))) 
discriminator. add(LeakyReLU(0.2)) 
discriminator.add(Dropout(0.3)) 
discriminator.add(Dense(512)) 

discriminator. add(LeakyReLU(0.2)) 
discriminator.add(Dropout(0.3)) 
discriminator.add(Dense(256)) 

discriminator. add(LeakyReLU(0.2)) 
discriminator.add(Dropout(0.3)) 

discriminator.add(Dense(1, activation='sigmoid')) 
discriminator.compile(loss='binary_crossentropy', optimizer-adam) 
# Combined network 

discriminator.trainable - False 

ganInput = Input(shape=(randomDim, )) 

x = generator(ganInput) 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


ganOutput = discriminator(x) 
gan = Model(inputs-ganInput, outputs=ganOutput ) 
gan.compile(loss='binary_crossentropy', optimizer=adam) 
dLosses = [] 
glosses = [] 
# Plot the loss from each batch 
def plotLoss(epoch): 
plt.figure(figsize=(10, 8)) 
plt.plot(dLosses, label='Discriminitive loss') 
plt.plot(gLosses, label='Generative loss') 
plt.xlabel('Epoch') 
plt.ylabel('Loss') 
plt.legend() 
plt.savefig('images/gan_loss_epoch_%d.png' % epoch) 
# Create a wall of generated MNIST images 
def saveGeneratedImages(epoch, examples=100, dim=(10, 10), 
figsize=(10, 10)): 
noise = np.random.normal(0, 1, size-[examples, randomDim]) 
generatedImages - generator.predict(noise) 
generatedImages - generatedImages.reshape(examples, 28, 28) 
plt.figure(figsize-figsize) 
for i in range(generatedImages.shape[0]): 
plt.subplot(dim[0], dim[1], i+1) 
plt.imshow(generatedImages[i], interpolation-'nearest', 
cmap-'gray r') 
plt.axis('off') 
plt.tight layout() 
plt.savefig('images/gan generated image epoch *d.png' % epoch) 
def train(epochs-1, batchSize=128): 
batchCount = int(X train.shape[0] / batchSize) 
print ('Epochs:', epochs) 
print ('Batch size:', batchSize) 
print ('Batches per epoch:', batchCount) 


for e in range(1, epochs+1): 
print ('-'*15, 'Epoch Xd' % e, '-'*x15) 
for _ in range(batchCount): 
it Get a random set of input noise and images 
noise - np.random.normal(0, 1, size-[batchSize, 
randomDim]) 
imageBatch = X_train[np. random. randint(Q, 
X train.shape[0], size-batchSize)] 


# Generate fake MNIST images 

generatedImages - generator.predict(noise) 

# print np.shape(imageBatch), np.shape(generatedImages) 
X = np.concatenate([imageBatch, generatedImages ]) 


# Labels for generated and real data 
yDis = np.zeros(2*batchSize) 

# One-sided label smoothing 
yDis[:batchSize] = 0.9 


# Train discriminator 
discriminator.trainable = True 
dloss = discriminator.train_on_batch(X, yDis) 


# Train generator 

noise = np.random.normal(0, 1, size=[batchSize, 
randomDim]) 

yGen = np.ones(batchSize) 

discriminator.trainable = False 

gloss = gan.train_on_batch(noise, yGen) 


# Store loss of most recent batch from this epoch 
dLosses. append(dloss) 
gLosses.append(gloss) 


if e == 1 or e % 20 == 0: 
saveGeneratedImages(e) 


# Plot losses from every epoch 
plotLoss(e) 


يمكننا الآن تدريب :GAN‏ 


train(200, 128) 


Epochs: 200 
Batch size: 128 
Batches per epoch: 468 


Discriminitive loss‏ سے 
Generative loss‏ سے 20 


0 25 50 75 100 125 150 175 200 
Epoch 


الأرقام المكتوبة بخط اليد التي أنتجتها GAN‏ لدینا في دورات مختلفة هي كما يلي: 


Epoch 1: Epoch 20: 


تنتجها GAN‏ حقيقية أكثر فأكثر. 


كما ترون من الأرقام السابقة ء كلما زاد عدد الدورات التدريبية ۰ أصبحت أرقام خط اليد التي 


التحديات المتعلقة بتدريب شبكات الخصومة التوليدية 
تدريبهم. يمكن أن يؤدي ذلك إلى وقوع شبكتينني دائرة من حلول الاستقرار التي لا تتحسن 


ومعدل التعلم ومعدل الحذف العشوائي. تضاعف شبكات الخصومة التوليدية كل هذه الخيارات 
وتضیف تعقيدات جديدة. قد ينسى كل من المولد والممیز التكتيكات التى استخدموهافي 


نظرًا للعدد الكبير من الخيارات المتضمنة: معمارية الشبكة ودوال التنشيط وخوارزمية التحسين 


هناك العديد من التحديات عند العمل مع آ6۸. قد يكون تدريب شبكة عصبية واحدة أمرًا صعبًا 


بمرور الوقت. قد تتجاوز إحدى الشبكات الأخرى حتى لا يتعلم أي منهما من الأخرى. أو قد لا 


m. 
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يكتشف المولد الكثير من مساحة الحل الممكنة وسيستخدمها فقط لإيجاد حلول واقعية. تعرف 
هذه الحالة باسم وضع الانهيار .(mode collapse)‏ 
يحدث وضع الانهيار عندما يتعلم المولد مجموعة فرعية صغيرة فقط من الحالات الحقيقية 
المحتملة. على سبيل المثال. إذا كان الأمر يتعلق بإنتاج صور للقطط. فيمكن للمولد أن يتعلم 
فقط إنتاج صور للقطط السوداء ذات الشعر القصير. يفقد المولد جميع الحالات الآخرى» بمافی 
ذلك القطط ذات الألوان الأخرى. 
تم اقتراح العديد من الاستراتيجيات لمعالجة هذه المشکلة. بمافي ذلك تسوية الدفعات 
وإضافة العلامات إلى البيانات التدريبية والمزيد. تؤدي إضافة العلامات إلى البیانات: أي 
تقسيمها إلى فثات. إلى تحسين أداء شبكات GAN‏ دائمًا تقريبًا. بدلاً من تعلم إنشاء صور 
للحيوانات الأليفة بشكل عام» يجب أن يكون من الأسهل إنتاج o eo‏ على سبيل JEI‏ القطط 
والكلاب والطيور. 
خلاصة الفصل 
= بشكل cele‏ هناك نوعان رئيسيان من النماذج في التعلم الآلي: نموذج المولد ونموذج 
المميز. 
٭ تركز نماذج المميز على التنبؤ obi‏ البيانات Gi y‏ لخصائصها. 
* لا یحاول نموذج المولد تعيين سمات للفئات c‏ ولكنه يولد سمات موجودة في فثة معينة. 
* تتبع نماذج المولد التعلم غير الخاضع للإشراف الذي يكتشف GUE‏ الأنماط أو المخالفات 
في البيانات التي يتم تحليلها. 
* الغرض الرئيسي من جميع أنواع نماذج المولد هو معرفة التوزيع الفعلي لمجموعة البيانات 
لمجموعة التدريب. 


1. من منظور الامثلية» ما هو الهدف التدريبي من المولد والمميز؟ 
2 کیف یتم تدريب المميز؟ 

3 ما هی مدخلات المولد؟ 

4 ماهو وضع الانهیار؟ 
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